L'essor des agents IA et du raisonnement agentique : Analyse complète

1. Contexte et introduction

Andrew Ng débute sa présentation en soulignant l’analogie entre l’IA et l’électricité : tout comme l’électricité s’est imposée comme une technologie générale (general-purpose technology) appliquée dans d’innombrables domaines, l’IA connaît aujourd’hui la même trajectoire. Il insiste sur l’ampleur des opportunités que l’IA offre à tous les « builders » ou développeurs — c’est-à-dire aux personnes qui conçoivent et construisent des produits et des solutions basées sur l’IA.

Il présente ensuite une vue d’ensemble de ce qu’il appelle la « stack IA » (ou la pile technologique IA) :

Semi-conducteurs : la couche la plus basse, celle du matériel (GPU, TPU, etc.).
Infrastructures cloud : hébergements, bases de données, solutions comme Snowflake.
Modèles fondamentaux (fondation models) et leurs fournisseurs : ce sont les grands modèles de type LLM (Large Language Models) ou modèles génératifs.
La couche applicative : selon Andrew Ng, c’est là que l’innovation et la création de valeur vont s’intensifier davantage. Les applications concrètes sont en effet celles qui rapporteront des revenus et justifieront les investissements dans les couches inférieures.

La vidéo originale ici : https://www.youtube.com/watch?v=KrRD7r7y7NY

2. Le rythme d’expérimentation accéléré grâce à l’IA générative

Andrew Ng met en avant une transformation majeure : auparavant, le développement et la mise en production d’un projet de machine learning supervisé (par exemple, une application de détection de sentiments) pouvaient nécessiter 6 à 12 mois (collecte et labellisation des données, entraînement, déploiement, mise en place de l’infrastructure, etc.).

Aujourd’hui, avec l’essor des modèles génératifs (ChatGPT, GPT-4, etc.), il est possible de :

Prototyper en quelques jours : concevoir un « prompt » (une instruction textuelle) et avoir un premier résultat rapidement.
Déployer tout aussi vite : dans certains cas, le déploiement ou l’implémentation peut se faire en quelques jours supplémentaires.

Cette rapidité modifie profondément les méthodes de travail :

On peut multiplier les prototypes et tester rapidement 20 idées ; on n’a plus besoin d’être aussi prudent qu’avant dans la sélection initiale des projets (car l’expérimentation ne prend plus 6 mois).
La difficulté réside alors davantage dans l’évaluation (ou « eval ») de la qualité du prototype. Avant, on collectait de gros jeux de données supervisées, ce qui permettait d’avoir beaucoup d’exemples pour la phase de test. Désormais, lorsqu’on ne dispose pas de données d’entraînement, on doit tout de même mettre en place des méthodes d’évaluation efficaces.
L’intégration logicielle (DevOps, MLOps, etc.) prend encore du temps, même si la partie IA (l’entraînement ou la génération) est désormais bien plus rapide. C’est pourquoi Andrew Ng invite les équipes à repenser ou accélérer ces autres composantes du cycle de développement.

Malgré tout, il insiste sur l’importance de rester responsable : « Move fast and break things » n’est pas un mantra qu’il défend, mais il promeut plutôt « Move fast and be responsible ». Il insiste sur le fait qu’il est possible d’itérer très vite et de tester en interne (ou sur des environnements cloisonnés) sans pour autant causer de dommages potentiels aux utilisateurs finaux.

3. L’émergence des « AI Agents » (ou « agentic AI »)

Selon Andrew Ng, s’il devait n’y avoir qu’une seule tendance technologique à retenir en IA, ce serait la montée en puissance de l’« IA agentique ». Les LLM (Large Language Models) ne servent plus seulement à répondre en une fois à une question (ce qu’il appelle le « zero-shot prompting »), mais plutôt à exécuter des chaînes d’actions de manière itérative.

3.1. Du zero-shot prompting à l’itération

Zero-shot prompting : on pose une question au modèle, il génère une réponse « de la première à la dernière phrase » en un seul bloc, sans révision intermédiaire.
Approche itérative : le modèle génère des étapes, réalise éventuellement des recherches complémentaires, fait un plan, s’auto-corrige, critique son propre output, etc. Cette approche rend les sorties plus fiables ou plus détaillées.

Ainsi, ce concept d’agent signifie qu’on laisse le modèle :

Analyser la tâche,
Planifier différentes actions (accéder à des ressources externes, effectuer des calculs, etc.),
S’auto-évaluer et se corriger,
Collaborer avec d’autres agents (ou d’autres instances du même modèle) pour converger vers la meilleure solution.

4. Les quatre grands schémas de conception (design patterns) pour l’IA agentique

Andrew Ng décrit quatre types de workflows qui se généralisent :

Reflection (ou auto-critique)
- L’idée est de demander au LLM d’examiner et de commenter sa propre production, puis de l’améliorer.
- Par exemple, le modèle génère du code, on lui redonne ce code en entrée en lui demandant de l’inspecter et de l’optimiser.
- Cette boucle permet souvent de corriger une partie des erreurs de base ou d’améliorer la qualité du résultat.
Tool use (ou utilisation d’outils)
- Le LLM décide lui-même s’il a besoin d’appeler une API, de faire une recherche web, d’envoyer un e-mail ou d’exécuter du code.
- Cette capacité à faire des appels de fonctions ou d’API élargit considérablement le champ d’application (réservations, actions sur des documents, intégration avec des systèmes tiers, etc.).
Planning (ou planification)
- Dans cette approche, le LLM décompose une tâche complexe en plusieurs étapes.
- Il peut enchaîner des actions précises (par ex. détecter la pose d’une personne dans une image, puis décrire l’image, puis générer une instruction vocale, etc.).
- Chaque sous-étape permet de structurer le raisonnement et de mieux gérer des requêtes complexes.
Multi-agent collaboration (ou collaboration entre plusieurs agents)
- Au lieu de n’avoir qu’un seul agent (un seul fil de discussion), on peut simultanément mettre en scène plusieurs rôles. Par exemple, un agent peut être en charge de coder, un autre de critiquer, un autre de tester.
- Même s’il peut s’agir au final du même « grand modèle » en coulisse, la subdivision en agents distincts (avec des contextes ou des personas différents) améliore la qualité de la réflexion et favorise une organisation modulaire.
- Andrew Ng compare cela aux processus dans un système d’exploitation : même si c’est le même CPU, on crée plusieurs processus indépendants pour structurer les tâches.

Grâce à ces quatre schémas (Reflection, Tool use, Planning, Multi-agent), on obtient des performances nettement supérieures à la simple génération d’une réponse immédiate. Des expériences menées sur des benchmarks de code montrent par exemple que GPT-3.5, couplé à un workflow agentique (incluant auto-révision, tests, planification), peut atteindre jusqu’à 95 % de réussite sur certains jeux de tests, contre 48 % environ sans ce workflow.

5. Vers la multimodalité : images et vidéos

Au-delà du texte, Andrew Ng insiste sur l’arrivée des grands modèles multimodaux (capables de gérer images, vidéos et textes). Comme pour les LLM purement textuels, l’approche itérative (agentique) s’applique également aux données visuelles.

Zero-shot prompting sur une image : on peut demander au modèle de la décrire ou d’en extraire une caractéristique, mais c’est parfois rudimentaire.
Workflow itératif : le modèle peut planifier plusieurs étapes, générer du code d’analyse d’image, exécuter ce code, en vérifier la sortie, se corriger, etc. On parle alors d’« agentic vision » (ou « vision agent »).

5.1. Démonstrations de « Vision Agent » (Landing AI)

Andrew Ng présente des démonstrations de la plateforme Vision Agent (développée par Landing AI) :

Compter le nombre de joueurs sur un terrain de football
- L’utilisateur fournit une image. L’agent va générer du code Python pour détecter les joueurs, puis analyser les résultats, itérer si nécessaire, et renvoyer une réponse fiable sur le nombre de joueurs réellement sur le terrain (en évitant de compter le public, par exemple).
- Ce processus prend quelques minutes, car l’agent réfléchit à chaque étape, génère du code, l’exécute, puis vérifie le résultat.
Détecter un but dans une vidéo
- L’agent découpe la vidéo en segments, exécute une détection (en cherchant un événement de but), repère l’instant précis et retourne l’extrait qui correspond.
- Encore une fois, l’agentic workflow génère et exécute du code, inspecte les images, et retourne la partie de la vidéo jugée pertinente.
Créer un dataframe avec la description de chaque segment vidéo
- On peut demander à l’agent de découper la vidéo en séquences de 6 secondes, décrire ce qui s’y passe et produire un dataframe (ou un tableau) contenant nom du clip, timecode, résumé textuel, etc.
- L’agent renvoie ensuite le code nécessaire pour refaire l’opération en masse sur d’autres vidéos, ce qui rend la solution industrialisable.

Andrew Ng montre également un outil de recherche par similarité, permettant de retrouver dans une base de vidéos les segments où, par exemple, un skieur est « en l’air » (airborne) ou où l’on voit un loup gris la nuit, etc. L’agent a donc produit des métadonnées, indexées, puis un moteur de recherche visuelle exploite ces informations.

6. L’impact sur la pile technologique IA

Andrew Ng note l’apparition d’une nouvelle couche dans la stack AI : l’agentic orchestration layer. Des bibliothèques comme LangChain (pour le texte) ou des solutions d’orchestration multimodales (comme la Vision Agent de Landing AI) offrent des blocs de construction pour concevoir, enchaîner et superviser ces workflows complexes.

Cette couche agentique s’insère au-dessus des modèles de base et avant l’application finale. Elle facilite le développement de nouvelles fonctions (recherche, planification, collaboration d’agents, etc.) sans que le développeur n’ait à tout coder de zéro.

7. Quatre tendances majeures à surveiller

Pour conclure sur les innovations clés, Andrew Ng propose quatre grandes tendances qui, selon lui, vont façonner l’évolution de l’IA dans les prochaines années :

Accélération de la génération de tokens
- Les workflows agentiques nécessitent parfois des boucles où le modèle génère et lit beaucoup de texte (tokens).
- Il faut donc optimiser l’infrastructure, qu’il s’agisse de nouveaux semi-conducteurs (GPU/TPU spécialisés), de bibliothèques logicielles plus performantes, ou d’algorithmes de sampling plus efficaces.
Tuning des modèles spécifiquement pour la prise d’outils
- Historiquement, les LLM ont été entraînés à répondre à des questions humaines issues d’Internet (style chatbot).
- Désormais, ils doivent être entraînés ou ajustés (fine-tuning) à manier des API, du code, des commandes, etc. (c’est ce qu’on appelle « Tool Use »).
- Des modèles comme ceux d’Anthropic (Claude), GPT-4 et d’autres s’orientent déjà dans cette direction, permettant de meilleures performances sur les tâches agentiques.
La montée en importance du data engineering pour les données non structurées
- L’IA génère de plus en plus de valeur à partir du texte, des images, des vidéos, des signaux audio, etc.
- Les entreprises possèdent souvent de vastes stocks de données non structurées qui n’étaient pas suffisamment exploitées.
- Organiser ces données, générer les métadonnées pertinentes et les rendre accessibles à des modèles devient un enjeu crucial.
La « révolution de l’image » (visual AI) est imminente
- Selon lui, l’explosion de la génération de texte a déjà eu lieu (grâce à ChatGPT et ses concurrents).
- La prochaine vague se concentre sur la vision (images, vidéos) avec la même ampleur, offrant des cas d’usage multiples (surveillance, analyse marketing, diagnostic médical, recherche, etc.).

8. Conclusion et perspectives

Andrew Ng conclut en réaffirmant que c’est un moment extraordinaire pour innover avec l’IA. Les développeurs et les entreprises peuvent :

Prototyper bien plus vite que par le passé.
Tirer parti des workflows agentiques (réflexion, planification, utilisation d’outils, multi-agents) pour construire des solutions auparavant inaccessibles.
Exploiter la vision (images/vidéos) qui demeure une source de données énorme et sous-utilisée.

Il encourage le public à explorer et à tester ces approches, notamment via la démonstration « Vision Agent » proposée par Landing AI (accessible sur le site va.landing.ai). L’idée est de s’approprier ces nouvelles briques technologiques afin de créer rapidement des applications qui extraient de la valeur de toutes ces données, y compris les contenus visuels.

En conclusion, Andrew Ng insiste sur le fait qu’il existe aujourd’hui une synergie unique entre :

Des modèles de base de plus en plus puissants,
Des mécanismes d’orchestration agentique sophistiqués,
Une communauté de développeurs agile et créative,
Et des données massives (textuelles, visuelles, etc.) à exploiter.

Ce contexte est donc propice à l’émergence d’innovations qui, il y a encore un an, semblaient impossibles ou très complexes à réaliser. L’invitation finale d’Andrew Ng est donc de se lancer dans l’expérimentation pour concevoir de nouveaux services et applications IA — en gardant à l’esprit la nécessité d’une responsabilité dans leur déploiement.

Andrew Ng explore l'essor des agents IA et du raisonnement agentique.