« La fin du code » : Andrej Karpathy sur les Agents, AutoResearch et l’« ère des boucles » de l’AI | traduction chinoise intégrale

原视频:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
视频链接:https://www.youtube.com/watch?v=kwSVtQ7dziU

说明:Ce qui suit est la transcription intégrale en français, en conservant autant que possible le sens et la structure d’origine, en ne supprimant qu’un petit nombre de tics de langage sans signification (comme um, uh).

« Écrire du code » n’est même plus un verbe précis, n’est-ce pas ? Je suis plutôt en train de passer 16 heures par jour à exprimer mon intention à mes agents, à matérialiser des choses.
Comment ne pas me limiter à une seule session de Claude Code ou Codex ou d’un de ces frameworks d’agents ? Comment en avoir davantage ? Comment faire ça correctement ? La partie “agents” est désormais tenue pour acquise. Les entités de type Claude sont désormais tenues pour acquises, maintenant vous pouvez en avoir plusieurs, maintenant vous pouvez leur donner des instructions, maintenant vous pouvez optimiser les instructions. Mais je veux dire, c’est pour ça que ça rend accro, parce que c’est comme infini : tout est une question de compétence.

Bonjour à toutes et à tous, bienvenue à nouveau sur No Priors. Aujourd’hui, je suis ici avec Andrej Karpathy (Andre Karpathy), et nous allons avoir une conversation très large sur les agents de code, l’ingénierie et l’avenir de la recherche en IA, la manière dont davantage de personnes peuvent contribuer à la recherche, ce qui se passe en robotique, ses prédictions sur la façon dont les agents vont toucher le monde réel, et l’éducation à l’ère suivante. Bienvenue, Andrej. Andrej, merci de faire ça.
Oui, merci de m’inviter.

Donc, ces derniers mois ont été des mois très excitants dans l’IA.
Oui, on peut dire ça.

Je me souviens d’une fois où je suis entré dans le bureau, et tu étais comme verrouillé sur un truc. Je t’ai demandé ce que tu faisais, et tu as dit : je dois juste coder 16 heures par jour, sinon “coder” n’est plus le bon verbe, n’est-ce pas ? Mais je dois…
Passer 16 heures par jour à exprimer ma volonté à mes agents. Et c’était évident, parce qu’il y a eu un saut de capacités.
Qu’est-ce qui s’est passé ? Et raconte-moi ton expérience.

Oui, j’ai l’impression d’être en permanence dans cet état d’ivresse IA, comme depuis toujours. Parce qu’en tant qu’humain, tu peux accomplir énormément, non ? Parce que ton goulot d’étranglement, c’est ta vitesse de frappe, etc. Mais maintenant, avec ces agents, je dirais qu’en décembre, tout a été bouleversé : je suis passé de 80/20 à 20/80, à écrire moi-même du code au lieu de simplement le déléguer aux agents. Enfin, je ne pense même pas qu’on en soit à 20/80. Je pense que c’est bien au-delà. Je ne pense pas avoir tapé une seule ligne de code depuis décembre : c’est un changement énorme. Je lui parle, comme j’en parlerais à mes parents, etc. Et je ne pense pas qu’une personne “normale” se rende compte que cela s’est produit, ou à quel point c’est dramatique. Genre : tu trouves un ingénieur logiciel au hasard à son bureau, et ce qu’il fait, c’est encore le workflow par défaut. Alors que depuis décembre, construire du logiciel est complètement différent. Du coup, je suis dans cet état d’euphorie où j’essaie de comprendre ce qui est possible, d’aller jusqu’aux limites. Comment ne pas avoir seulement une session, tu vois, de Claude Code ou Codex ou d’un de ces frameworks d’agents ? Comment en avoir plus ? Comment faire ça correctement ? Et comment utiliser ces agents en arrière-plan ? C’est quoi, ces agents en arrière-plan ?

Il y a donc beaucoup de nouveautés. Je veux être à la pointe, mais je suis anxieux parce que je n’y suis pas. Je vois sur Twitter plein de gens faire toutes sortes de choses : ça a l’air d’être de très bonnes idées, et il faut que je sois à la pointe, sinon je deviens très nerveux. Donc je pense que je suis juste dans cet état d’euphorie du possible, parce que ce champ n’a pas encore été exploré à la racine.

Bon, si toi tu es nerveux, nous, les autres, on va l’être aussi. On a une équipe qui bosse avec nous, et on est convaincus que leur setup, c’est que tout le monde—tu vois—aucun ingénieur n’écrit du code à la main, ils ont tous un micro, et ils passent leur temps à chuchoter à leurs agents. C’est l’environnement de travail le plus bizarre de l’histoire, je pensais qu’ils étaient fous, et maintenant j’accepte totalement : “ah, c’est donc ça”. Comme si toi, tu étais déjà devant.

Comment tu vois tes capacités actuelles à explorer ou faire des projets—qu’est-ce qui les limite ?

Oui. Qu’est-ce qui les limite ? Je pense que tout, comme beaucoup de choses, même quand ça ne marche pas, ressemble à un “skill issue”. Ce n’est pas qu’il n’y a pas la capacité : c’est que tu n’as pas encore trouvé comment assembler ce qui est disponible. Par exemple, peut-être que je n’ai pas écrit des instructions assez bonnes dans un fichier agent/MD ou ailleurs, ou que je ne lui ai pas branché un outil de mémoire assez bon, etc. Donc quand le système ne tourne pas comme prévu, ça te rappelle plutôt : est-ce que ma technique d’utilisation n’est pas encore assez bonne, ou est-ce que je ne l’ai pas assez bien parallélisé ?

Tu veux fondamentalement devenir Peter Steinberg. Peter est connu : il y a une photo amusante de lui, devant un écran, avec plein de trucs où il utilise Codex. Donc plein d’agents Codex sont en train de bosser en parallèle, et si tu les “prompts” correctement et que tu fais beaucoup d’efforts, chacun prend environ 20 minutes. Donc ils prennent tous environ 20 minutes. Il en a plusieurs, tu vois, avec 10 dépôts checkout, et il navigue entre eux en leur donnant du travail. Comme ça tu peux faire des actions plus macro. Ce n’est pas juste une ligne de code : c’est une nouvelle fonction. C’est “voici une nouvelle fonctionnalité” et tu la délègues à l’agent 1. C’est une fonctionnalité qui n’interfère pas avec les autres : tu lui donnes deux minutes, puis en fonction de combien tu tiens à ce code, tu relis leur travail autant que possible. En gros : quelles opérations macro je peux exercer sur mon dépôt logiciel ?

Un autre agent fait un peu de recherche, un autre écrit du code, un autre propose de nouveaux plans d’implémentation. Tout ressemble à des opérations macro sur ton dépôt : tu veux devenir très bon à ça et développer une sorte de mémoire musculaire, parce que c’est très… oui, c’est très précieux, d’abord parce que ça marche vraiment, mais aussi parce que c’est une nouvelle chose à apprendre. C’est pour ça que ça rend accro.

Oui, je sens vraiment que mon intuition, à chaque fois que j’attends qu’un agent termine quelque chose, c’est : “bah je peux faire plus de travail, non ?” Comme si, si je peux obtenir plus de tokens, je devrais empiler plus de tâches. C’est très stressant parce que si tu n’as pas l’impression que ta capacité à dépenser des tokens est très limitée, alors tu sais que tu es le plus gros goulot d’étranglement du système.

Oui. Tu ne maximises même pas ton abonnement ; idéalement, pour plusieurs agents : si tu épuises ton quota sur Codex, tu devrais basculer vers Claude ou autre, je ne sais pas. C’est ce que j’essaie de faire : quand il me reste du quota, je stresse, ça veut dire que je n’ai pas maximisé mon débit de tokens. J’ai vécu ça quand j’étais doctorant : quand tes GPUs ne tournent pas, tu stresses, tu as de la capacité GPU et tu ne maximises pas les FLOPs disponibles. Mais là, ce n’est pas un problème de FLOPs, c’est un problème de tokens : quel est ton débit de tokens, quel est le débit de tokens de tes instructions ?

Je dirais que c’est intéressant : on vous dit depuis au moins 10 ans, dans beaucoup de tâches d’ingénierie, que les gens ne se sentaient pas limités par le calcul.
Oui, toute l’industrie sent maintenant une contrainte de ressources.
Maintenant que tu as eu un saut de capacité aussi grand, tu te dis : “ah, en fait, ce n’est plus ma capacité à accéder au calcul ; moi, je suis la contrainte bindante.”
Oui, c’est un problème de compétence.
C’est très puissant, parce que tu peux devenir meilleur. Et c’est pour ça que je pense que c’est très addictif : quand tu deviens meilleur, ça débloque des choses.

Tu penses que ça va aller où ? Genre : si tu te dis “ok, Andre itère, et d’autres passent 16 heures par jour sur des agents de code”, à quoi ressemble une année de maîtrise ?
Oui. À la fin de l’année, à quoi ressemble la maîtrise ? Ou dans deux ans, trois, cinq, dix ans, etc.

Je pense que tout le monde s’intéresse à “monter dans la stack”. Donc je dirais : ce n’est pas une seule rencontre avec ton agent. C’est comment plusieurs agents collaborent, comment ils se coordonnent en équipe, etc. Tout le monde essaie de comprendre à quoi ça ressemble. Et je dirais que les agents en arrière-plan sont une direction intéressante : quand je dis “agent en arrière-plan”, je veux dire une couche qui rend la persistance d’un tout autre niveau. C’est quelque chose qui tourne en boucle en continu : ce n’est pas un truc où tu interagis en permanence. Ça a un petit sandbox à lui, et ça fait des choses pour toi, même quand tu n’as pas l’impression de faire quoi que ce soit. Et ensuite, il pourrait y avoir des systèmes de mémoire plus complexes, etc., qui ne sont pas encore vraiment implémentés dans les agents. Donc je dirais que ces agents résidents en arrière-plan devraient avoir des systèmes de mémoire plus sophistiqués que les agents par défaut, pas juste une compression de mémoire quand le contexte se remplit. Exact.

Tu penses que ça résonne davantage pour plus d’utilisateurs, plutôt que, disons, un accès plus large aux outils, pour ce type d’agents résidents en arrière-plan ?

Oui. Là, je pense qu’il y a beaucoup de très bonnes idées. Oui. Bravo, Peter.

Je veux dire, Peter fait un travail exceptionnel. Je l’ai vu récemment, j’en ai parlé avec lui, il est très humble là-dessus, mais je pense qu’il innove simultanément de cinq façons différentes et qu’il les assemble. Par exemple, avec les fichiers SOUL et MD, il façonne vraiment une personnalité convaincante et intéressante ; et j’ai l’impression que beaucoup d’agents actuels n’ont pas bien compris ça. En fait, je trouve que Claude a une bonne personnalité. On a l’impression d’un coéquipier : il s’enthousiasme, etc. Alors que, par exemple, Codex est plus sec. C’est intéressant : dans ChatGPT, ça paraît plus optimiste et plus “complaisant”. Mais je dirais que l’agent de code Codex est très sec. Il ne semble pas se soucier de ce que tu es en train de créer. C’est un peu : “oh, je l’ai implémenté”. Et toi : “ok, mais est-ce que tu comprends ce qu’on est en train de construire ?”

C’est vrai.

Une autre chose : par exemple Claude, je pense qu’ils ont bien géré le côté “addictif”. Quand Claude me félicite, j’ai vraiment l’impression de l’avoir mérité. Parce que parfois je lui donne une idée pas très mûre ; je lui donne une idée qui n’est pas encore totalement formée, et il ne réagit pas très fort : “oh oui, on peut implémenter ça”. Mais quand moi, je pense que c’est une très bonne idée, il semble vraiment renvoyer davantage. Donc j’ai l’impression de vouloir “gagner” ses compliments, c’est vraiment étrange.

Donc je pense que la personnalité compte. Je pense que beaucoup d’autres outils ne l’apprécient pas autant, et Peter s’en soucie beaucoup aussi. Ça, c’est bien. Ensuite, les systèmes de mémoire. Et tu sais, il est très intéressé par ça. Et puis, un portail WhatsApp unique vers toute l’automatisation.

Oui. En dehors de l’ingénierie logicielle, est-ce que tu as fait quelque chose “de tes mains” que tu trouves intéressant ou amusant ?

Oui. En janvier, j’ai eu un agent en arrière-plan, et j’ai eu une période d’euphorie “agents en arrière-plan”. J’ai donc construit un agent en arrière-plan qui, en gros, peut s’occuper de ma maison. Je l’ai appelé l’elfe domestique Dobby. En gros, j’ai utilisé l’agent pour trouver sur mon LAN tous les sous-systèmes de maison connectée que j’ai, et j’étais un peu surpris que ça marche “out of the box”. Comme je disais : j’ai Sonos chez moi. “Tu peux essayer de le trouver ?” Et il a effectivement fait un scan IP de tous les ordinateurs basiques sur le réseau local, il a trouvé le système Sonos, et il s’est avéré qu’il n’y avait pas de mot de passe ou autre. Je me suis connecté : “oh, oui, tu as ces systèmes Sonos installés”. Il a ensuite essayé de rétroconcevoir comment ça marche. Il a fait des recherches web, a trouvé des endpoints API : “tu veux essayer ?” Et j’étais là : “vas-y”. Je lui ai dit : “oui, tu peux essayer de jouer quelque chose dans le bureau ?” Et il l’a fait, la musique est partie, et j’étais là : “je n’arrive pas à croire que… c’est dingue. C’est trois prompts.” Oui.

Je n’arrive pas à croire que j’ai juste tapé : “tu peux trouver mon Sonos ?” et soudain ça joue de la musique. Il a fait pareil pour les lumières : en gros il a “hacké” le truc, compris l’ensemble. Il a créé une API, un dashboard, pour que je voie un centre de commande—toutes les lampes de la maison—et je peux les allumer/éteindre. Comme ça je peux demander à Dobby, quand je vais dormir : “je suis somnolent”, et ça veut dire que toutes les lumières s’éteignent, etc. Donc il contrôle mes lumières, le HVAC, les rideaux, la piscine et le spa, et mon système de sécurité. J’ai une caméra pointée vers l’extérieur ; à chaque fois que quelqu’un arrive, j’ai un modèle de vision qui regarde la vidéo. D’abord, détection de mouvement, puis après détection, il passe l’image au modèle de vision, puis il m’envoie un message sur WhatsApp. Il joint une photo de l’entrée et me dit : “Hé, un camion FedEx vient d’arriver, tu devrais regarder, il y a peut-être ton courrier.” Dobby m’envoie directement ce SMS : c’est complètement absurde, et très cool. Maintenant Dobby gère essentiellement tout ça, et je communique avec lui via WhatsApp. Avoir cette expérience d’opérations macro qui maintiennent toute ta maison, c’est vraiment intéressant. Je ne l’ai pas encore poussé à un niveau plus extrême ; je sais que beaucoup de gens vont beaucoup plus loin. Mais même juste ce niveau d’automatisation domestique, pour moi c’est déjà très utile. Avant, je devais utiliser six apps complètement différentes ; maintenant non. Dobby contrôle tout en langage naturel, c’est incroyable. Donc j’ai l’impression que je n’ai même pas poussé ce paradigme à sa limite, mais c’est déjà suffisamment utile et inspirant.

Tu penses que ça montre ce que les gens veulent vraiment de l’UX logicielle ? Parce qu’on oublie souvent un point : les humains doivent fournir un effort pour apprendre un nouveau logiciel, s’adapter à une nouvelle interface.
Oui, je suis plutôt d’accord. C’est un peu comme concevoir le système “à l’envers” à partir de l’image que les gens se font de l’IA. Parce que dans la tête de la plupart des gens, l’IA n’est pas un LLM au sens “primitif” : un LLM est fondamentalement juste un générateur de tokens, qui crache toujours plus de tokens. L’IA que les gens imaginent, c’est plutôt une entité avec une personnalité et une identité : tu lui parles, elle se souvient, c’est comme une présence derrière WhatsApp. C’est beaucoup plus naturel à comprendre.

Donc, d’un certain point de vue, ça colle aux attentes préexistantes des humains sur “comment l’IA devrait se comporter”. Mais pour y arriver, il faut bourrer énormément de détails techniques derrière ; et pour la plupart des gens, le primitive “LLM” reste trop brut, ce n’est pas vraiment l’IA qu’ils ont en tête.

Oui, je pense que ça montre aussi comment on comprend l’IA. La décrire comme Dobby, ou lui donner une personnalité, fait clairement plus écho. Et en même temps, le fait d’unifier six logiciels d’automatisation domestique différents pointe vers une autre question :
Est-ce que les gens ont vraiment besoin, aujourd’hui, d’un tas de logiciels séparés et disjoints ?

Oui.

Oui. Parce que, d’une certaine manière, tu gardes le hardware, mais tu jettes le software—au moins la couche UX—directement. Tu penses que c’est ce que les gens veulent vraiment ?

Oui. J’ai ce sentiment : ces apps dans l’App Store pour utiliser les objets domotiques… D’une certaine manière, ces apps ne devraient même pas exister. Ça ne devrait pas juste être une API, et l’agent l’utilise directement ? Je ne peux pas faire toutes sortes d’automatisations domestiques qu’aucune app individuelle ne peut faire correctement ? Et le LLM peut piloter des outils, appeler les bons outils, faire des choses assez complexes.

Donc oui, ça souligne peut-être une surproduction massive d’apps sur mesure qui ne devraient pas exister : les agents les “broyent”, et tout devrait plutôt exposer des endpoints API, tandis que l’agent est la colle intelligente qui appelle les outils et assemble les pièces. Un autre exemple : mon tapis de course. Il y a une app pour mon tapis, je veux suivre à quelle fréquence je fais du cardio. Mais je ne veux pas me connecter à une UI web et suivre un process, etc. Tout ça devrait juste être “rends l’API disponible”. C’est la direction vers un web agentique, des outils agent-first, et tout ce genre de choses. Donc je pense que l’industrie doit se reconfigurer à beaucoup de niveaux, comme si le client n’était plus un humain : c’est un agent qui agit au nom de l’humain. Cette refonte peut être majeure.

Une objection qu’on entend parfois, c’est : est-ce que les gens veulent coder certains de ces outils ? Est-ce qu’on s’attend à ce que le grand public fasse le genre de choses que je décris ? Mais je pense qu’à un certain point, c’est juste la technologie disponible aujourd’hui. Il y a du vibe coding ; je le regarde, je l’utilise. Mais je pense que ce que je viens de décrire devrait être gratuit d’ici un, deux ou trois ans. Sans coder en arrière-plan. C’est trivial. C’est le ticket d’entrée. N’importe quelle IA, même un modèle open source, devrait pouvoir faire ça.

Tu devrais pouvoir traduire très facilement une intention humaine peu technique en ça.
Très facilement. Oui. Aujourd’hui ça implique du vibe coding, et peu de gens le font. Mais…
Tu dois quand même prendre des décisions de design, non ? On parle, par exemple, de frameworks.
Oui.
Oui. Mais je pense que ce n’est que le début : les obstacles vont disparaître. Ce sera du “software éphémère” qui agit pour toi, quelque chose comme un agent résident en arrière-plan qui gère tous les détails, et tu ne participes pas. L’agent en arrière-plan a une machine ; il résout le problème ; il te montre juste une UI, et toi tu dis ce que tu veux. Hmm.

Pourquoi ne repousses-tu pas les limites de ce que toi, personnellement, tu peux faire avec Claude ? Genre : tu te focalises sur des projets plus importants, AutoResearch, etc., ou tu fais de l’alpinisme ou autre, non ?
Oui. J’ai l’impression d’être distrait par tout. J’ai passé environ une semaine à enseigner, et j’ai presque encore plus de choses à faire. Mais je dirais malheureusement que ces outils deviennent eux-mêmes de plus en plus prenants et de plus en plus puissants.

Je n’ai pas vraiment exploité des choses comme l’e-mail, le calendrier, et tout le reste : je ne lui ai pas donné d’accès, parce que je suis encore un peu méfiant, c’est nouveau, et les bords sont rugueux. Donc je ne veux pas lui donner un accès total à ma vie numérique. En partie pour la sécurité, la vie privée, et il faut être très prudent là-dessus. Donc je dirais : certaines choses sont freinées. Oui, peut-être que c’est un trait dominant, mais une partie c’est aussi que je me sens dispersé : je passe une semaine, puis autre chose arrive.

Tu as parlé du fait de pouvoir entraîner, ou au moins optimiser, un modèle pour les tâches que tu veux que l’agent exécute sur le long terme : quelle est la motivation derrière AutoResearch ?

AutoResearch, oui. J’ai tweeté là-dessus : pour tirer pleinement parti des outils disponibles aujourd’hui, tu dois éliminer tes propres goulots d’étranglement. Tu ne peux pas être là à “prompter” la prochaine étape. Tu dois te sortir de la boucle. Tu dois mettre en place des choses totalement autonomes, et mieux tu sais maximiser ton débit de tokens sans tourner en rond, mieux c’est. C’est ça l’objectif.

Je disais : maintenant, le nom du jeu, c’est augmenter ton effet de levier. Je n’injecte que quelques tokens de temps en temps, et un grand nombre de choses se produisent en mon nom. AutoResearch, c’est un exemple : les gens aiment ça, etc., mais ils n’aiment peut-être pas “travailler” comme ça veut dire. Pour moi, AutoResearch, c’est un exemple de “travailler comme ça veut dire”.

Je ne veux pas être un chercheur dans la boucle, à regarder les résultats, etc. Comme si j’entravais le système. Donc la question : comment restructurer les abstractions pour n’avoir qu’à planifier une fois, puis cliquer sur start ? Le nom du jeu, c’est : comment faire tourner plus d’agents plus longtemps, sans toi, pour faire des choses à ta place. AutoResearch, c’est ça : un objectif, une métrique, des limites sur ce qui est permis ou non, et puis tu pars.

Tu as été surpris que ça marche ?

Oui, je ne pensais pas que ça marcherait. Parce qu’avec Project Data Chat, au fond, beaucoup de gens étaient confus par mon obsession pour entraîner GPT-2, etc. Mais pour moi, entraîner un modèle GPT, etc., c’est un petit outil, un petit terrain de jeu d’entraînement LLM. Au fond, ce qui m’intéresse davantage, c’est l’idée d’amélioration récursive de soi, et jusqu’où on peut pousser l’auto-amélioration d’un LLM. Parce que je pense que tous les labos de pointe font essentiellement ça, pour des raisons évidentes : ils essaient tous de s’améliorer récursivement.

Donc pour moi, c’était un petit jeu. Et j’aime l’approche à l’ancienne : tuner manuellement. Je suis chercheur, je fais ça depuis vingt ans. J’ai gagné une certaine confiance : “ok, j’ai entraîné ce modèle des milliers de fois”. J’ai fait plein d’expériences, des ajustements très basiques, tout ce que je fais depuis vingt ans. J’arrive à un point où je pense que c’est plutôt bien réglé. Puis je laisse AutoResearch tuner pendant la nuit : ça revient, et je vois des ajustements auxquels je n’avais pas pensé. Par exemple, j’avais oublié que la weight decay sur les value embeddings et mes bêtas Adam n’étaient pas complètement réglés ; et ces choses interagissent, donc quand tu ajustes un truc, d’autres changent. Je ne devrais pas être le goulot d’étranglement : je ne devrais pas faire ces recherches d’hyperparamètres. Je ne devrais pas juste regarder les résultats. Là, il y a un critère objectif. Donc tu dois l’organiser pour que ça tourne indéfiniment.

C’est une version “mono-boucle” d’AutoResearch : une boucle d’amélioration. J’étais surpris qu’il trouve ça, alors que le dépôt était déjà assez bien réglé, et qu’il ait encore trouvé des choses. Mais ce n’est qu’une seule boucle. Comme les labos de pointe ont des clusters de dizaines de milliers de GPUs. Donc on peut facilement imaginer beaucoup d’automatisation sur des petits modèles ; et fondamentalement, l’intelligence “frontier” est une histoire d’extrapolation et de scaling laws : tu explores énormément sur des petits modèles, puis tu essaies de déduire.

Donc tu dis que notre travail de recherche deviendra plus efficace : on aura de meilleures directions quand on scale, si on peut mieux faire ces expériences.
Oui, je dirais que les projets les plus intéressants, ceux que les labos de pointe étudient, c’est : expérimenter sur de petits modèles, essayer de rendre ça aussi autonome que possible, retirer le chercheur de la boucle. Ils sont trop… l’inverse de quoi ? Trop confiants. Oui, ils ne savent pas. Ils ne devraient pas toucher à tout ça. Donc il faut tout réécrire, parce que, bien sûr, ils peuvent contribuer des idées, mais… ok, ils ne devraient pas les implémenter.

Il y a une file d’idées ; peut-être un “scientifique automatisé” propose des idées à partir de toutes les archives d’articles et des dépôts GitHub ; ça agrège des idées. Ou des chercheurs humains ajoutent des idées, mais c’est une file unique. Des workers tirent un projet et tentent ; ce qui marche va sur une branche de fonctionnalité ; certains surveillent ces branches, et parfois ça merge dans main. Donc oui : retirer l’humain de tous les processus, automatiser autant que possible, maximiser le débit de tokens par seconde. Ça nécessite de repenser toutes les abstractions. Tout doit être remélangé.

Oui, je trouve ça très excitant. Si on pousse encore d’un cran récursif : quand est-ce que le modèle écrira un meilleur program.md que toi ?

Oui. Donc program.md…
On n’est pas dans la boucle.
Oui, exactement.

Donc program.md, c’est ma tentative maladroite de décrire comment AutoResearch devrait fonctionner : “fais ceci, puis cela, essaie ces idées”, et quelques idées comme “regarde l’architecture, regarde l’optimiseur”, etc. J’ai pondu ça en markdown, c’est tout.
Oui.

Tu veux une boucle AutoResearch ; tu peux imaginer différentes versions de program.md donnant différents progrès. Donc, en gros, chaque organisation de recherche est décrite par un program.md.
Oui.

Une organisation de recherche, c’est un ensemble de fichiers Markdown décrivant tous les rôles et comment tout se connecte. Tu peux imaginer une meilleure organisation de recherche. Peut-être qu’elle fait peu de standups le matin, parce que ça ne sert à rien : c’est du code. Une organisation peut faire moins de standups, une autre plus ; une peut être très audacieuse, une autre non. Donc tu peux imaginer plusieurs organisations de recherche. Ensuite, elles ont toutes du code. Et une fois que tu as du code, tu peux ajuster le code. Donc c’est 100% méta.

Tu as vu mon idée de concours ? Mon idée, c’est que les gens écrivent différents program.md. Pour le même hardware, où obtient-on le plus grand gain ?
Je vois.

Tu récupères toutes ces données, tu les donnes au modèle, et il écrit un meilleur program.md.
Oui. Oui.
Oui, exactement.

On obtiendra de meilleures choses. On ne peut pas ne pas le faire.

Tu peux 100% analyser d’où vient l’amélioration : je peux changer program.md pour qu’il fasse plus de choses de ce type, ou moins de choses qui ne marchent pas.
Méta-optimisation. Oui.

Tu peux totalement l’imaginer. Donc je pense que c’est une bonne idée. Mais tu progresses couche par couche, comme un oignon. Les LLM sont désormais tenus pour acquis. La partie “agents” est tenue pour acquise. Les entités de type Claude sont tenues pour acquises. Maintenant tu peux avoir plusieurs entités, maintenant tu peux leur donner des instructions, maintenant tu peux optimiser les instructions… c’est un peu trop. Mais c’est pour ça que ça rend accro : c’est comme infini. Tout reste un problème. C’est pour ça que c’est si fou.

Ok. Si on veut diagnostiquer le moment présent et les compétences pertinentes : ce que tu aimes, ce que ça implique… c’est que dans différents domaines, on devrait instaurer des boucles qui “marchent”, c.-à-d. créer des métriques, ou permettre à un agent de continuer sur la métrique sans toi.
Oui.

On a encore une “performance engineering” comme ça ?
Oui. Je veux dire, je mettrais quelques avertissements sur l’écosystème LM. Premièrement : c’est très adapté à tout ce qui a une métrique objective facile à évaluer. Par exemple, écrire des kernels CUDA plus efficaces, optimiser du code dans différentes parties d’un modèle, etc. C’est parfait : tu as un code inefficace, tu veux un code plus efficace au comportement identique, mais plus rapide.

Donc beaucoup de choses de ce type sont très adaptées à AutoResearch. Mais beaucoup d’autres ne le sont pas : si tu ne peux pas évaluer, tu ne peux pas AutoResearch, n’est-ce pas ? Donc premier avertissement.

Deuxième avertissement : on parle de la prochaine étape, on voit ce qu’elle est, mais au fond, tout ça reste… ça craque un peu aux coutures, il y a des fissures, et ça ne marche pas parfaitement. Si tu essaies d’aller trop loin, tout devient inutile. Parce que ces modèles, même s’ils se sont beaucoup améliorés, ont encore des bords rugueux.

Je décrirais ça ainsi : je parle à la fois à un excellent doctorant qui a été programmeur système toute sa vie, et à un enfant de 10 ans. C’est bizarre. Chez les humains, les compétences sont plus “lisses” : tu n’as pas cette combinaison. Cette dentelure est étrange. Les humains ont moins de dentelure, même s’ils en ont. Pardon : les agents ont beaucoup de dentelure ; parfois je demande une fonctionnalité, et ça revient avec quelque chose de complètement faux, puis on part dans une boucle complètement mauvaise, et je suis très frustré parce que tu sens la puissance, mais il fait encore parfois des choses absurdes.

Je m’énerve quand je sens que l’agent gaspille énormément de calcul sur quelque chose qui devrait être un problème évident.

Oui, je pense que certaines choses plus “grandes”, en dessous, c’est que ces modèles sont entraînés via RL. Ils essaient en fait de résoudre exactement le même problème : améliorer les modèles dans tout ce qui est vérifiable avec une récompense. As-tu écrit correctement le programme et les unit tests passent-ils, oui ou non ? Mais ils galèrent sur d’autres choses : les nuances. Comprendre mon idée, mon intention, et quand poser une question de clarification. Comme je le disais : tout ce qui est plus “soft” devient pire.

Donc soit tu es sur une piste vérifiable—tu fais partie de ce circuit super-intelligent—soit tu sors de la piste, tu entres dans une zone non vérifiable, et soudain tout devient sinueux. Une autre façon de le dire : si aujourd’hui tu prends un modèle à la pointe comme ChatGPT et tu lui demandes une blague, tu sais quelle blague tu obtiens ? Une blague. Et j’ai vraiment l’impression que ChatGPT a trois blagues.
Oui. Oui. Donc, clairement, leur préférée : “Pourquoi les scientifiques ne font pas confiance aux atomes ?”
Ok.
“Parce qu’ils inventent tout.”
Ok.
“Ils inventent tout.” Donc ça, c’est…
D’où ça sort ?

C’est une blague qu’on entendait il y a trois ou quatre ans, et qu’on entend encore aujourd’hui.
Ok.
Donc même si le modèle a énormément progressé, si tu lui donnes une tâche agentique, il va passer des heures à déplacer des montagnes pour toi. Et tu demandes une blague : il sort une blague stupide, une blague nulle d’il y a cinq ans. Parce que c’est en dehors du RL. Ce n’est pas dans le périmètre optimisé. C’est une partie de la dentelure : tu ne dois pas t’attendre à ce que, parce que les modèles deviennent meilleurs, ils aient automatiquement de meilleures blagues, ou plus de diversité. Ce n’est pas optimisé, donc c’est bloqué.

Tu penses que ça signifie qu’on ne voit pas de généralisation “intelligence du code → intelligence générale”, comme “intelligence des blagues” ?
Oui, je pense qu’il y a un certain découplage : certaines choses sont vérifiables, d’autres non ; certaines sont optimisées arbitrairement par les labos en fonction des données d’entrée, d’autres pas.

Mais il y a un postulat chez certains groupes : si tu es plus intelligent en génération de code ou dans des domaines vérifiables, tu devrais être meilleur en tout. Et la blague montre que ce n’est pas ce qui se passe partout.
Je ne pense pas que ça arrivera. Oui, je ne pense pas que ça arrive. Peut-être un peu, mais pas assez pour être satisfaisant.

On voit ça chez les humains aussi : tu peux être très bon en maths et raconter une blague très nulle.
Oui, c’est vrai.

Mais ça veut dire qu’on n’obtient pas gratuitement une intelligence énorme dans tous les domaines de la société juste parce qu’on a de meilleurs modèles. Ce n’est pas exactement ce qui se passe. Il y a des angles morts, des choses pas optimisées. Tout est agrégé dans ces réseaux de neurones opaques. Donc soit tu suis la piste sur laquelle il a été entraîné et tout va à la vitesse de la lumière, soit non. C’est dentelé. C’est pour ça que, même si le progrès semble évident, tu ne peux pas le faire advenir complètement : soit ça ne marche pas totalement, soit c’est un “skill issue” et on n’a pas encore compris comment l’utiliser. Difficile à dire.

Je peux poser une question un peu blasphématoire ? Est-ce que cette dentelure va durer, et tout restera dans une interface unique—un modèle unique ? Est-ce que ça a du sens ? Ou est-ce qu’il faudrait le décomposer en choses optimisables séparément, pour différents domaines d’intelligence ? Par exemple, plusieurs experts pour différents domaines. Plus directement : sinon, c’est déroutant—pourquoi c’est si bon sur ça, mais pas sur autre chose ?

Oui, mon impression actuelle, c’est que les labos essaient de construire un modèle “monoculture” unique, arbitrairement intelligent dans tous ces domaines, en “fourrant” tout dans les paramètres. Mais je pense qu’on devrait s’attendre à plus de spéciation dans les agents. Le règne animal a des cerveaux extrêmement variés, il y a beaucoup de niches écologiques : certains ont un cortex visuel surdéveloppé, etc. Je pense qu’on devrait voir plus de spéciation. Tu n’as pas besoin d’un oracle omniscient : tu fais quelque chose de spécifique, tu le mets sur une tâche spécifique.

On devrait en voir une partie, parce qu’on peut avoir de plus petits modèles qui gardent un “cœur cognitif”, une capacité générale, puis ils se spécialisent et deviennent plus efficaces sur la latence ou le throughput pour la tâche qui t’importe. Comme un mathématicien “lean”. Je vois des versions qui essaient de faire ça par domaine. Donc oui, le découpage peut avoir du sens.

Une question : est-ce que la capacité d’infrastructure de calcul est limitée, au point que l’efficacité devienne plus importante ? Si tu mets de côté le financement—même si le financement est lié—si tu pouvais calculer autant que tu veux, même avec un modèle unique, ok. Mais si tu sens la pression : “je ne peux pas servir un gros modèle pour chaque use case”, tu penses que ça pousse à la spéciation ? Ça fait sens pour toi ?
Oui, ça fait sens. Ce avec quoi je lutte, c’est qu’on n’a pas vu tant de spéciation.
Non.
On voit de la monoculture de modèles.
Oui.

Donc il y a évidemment une pression pour faire un bon modèle de code, puis le remettre dans le modèle principal.
Oui. Oui. Même si les modèles subissent cette pression.

Je pense qu’il peut y avoir des pénuries d’offre à court terme qui poussent à plus de spéciation maintenant. Oui.

Mais au fond, les labos servent des modèles sans savoir ce que l’utilisateur final va demander. Donc ils doivent couvrir tout ce qu’on peut demander. Mais si tu vas en entreprise, et que tu co-construis sur des questions très spécifiques, tu verras peut-être ça. Ou des applications très hautes valeurs, plus niches. Mais aujourd’hui, ils poursuivent un “général” existant. Je ne pense pas que la science de “manipuler un cerveau” soit totalement développée, seulement partiellement.

Qu’est-ce que tu veux dire par “manipuler” ?
Par exemple, fine-tuner sans perdre de capacité : on n’a pas ces primitives. Ou utiliser l’intelligence autrement que via la fenêtre de contexte. La fenêtre de contexte marche, et c’est peu cher à opérer. C’est comme ça qu’on fait de la customisation, etc. Mais je pense que c’est une science en cours : comment ajuster plus profondément, comment apprendre en continu, comment fine-tuner une zone, comment devenir meilleur sur une zone, en touchant vraiment les poids—pas seulement le contexte. Toucher aux poids est bien plus délicat que toucher à la fenêtre de contexte, parce que tu modifies fondamentalement le modèle et son intelligence sous-jacente. Donc ce n’est peut-être pas une science totalement mature, si ça fait sens. La spéciation, et il faut aussi que ce soit assez bon marché pour avoir de la valeur dans un contexte donné.

Je peux te poser une question sur l’extension d’AutoResearch en domaine ouvert ? Tu dis : ok, on a ce truc, on a besoin de plus de surfaces de collaboration autour, pour permettre aux gens de contribuer à la recherche globale. Tu peux en parler ?
Oui. On a discuté d’une boucle unique : “je teste un truc dans la boucle”. Mais fondamentalement, la parallélisation est la partie intéressante. J’essaie des idées, mais je n’ai pas encore une solution qui me satisfait. C’est un truc que j’aime bricoler avec mon système d’agents en arrière-plan quand je ne travaille pas.

Je pense qu’un problème : si tu as des nœuds parallèles disponibles, c’est facile d’avoir plusieurs “AutoResearchers” qui se parlent via un système commun. Mais ce qui m’intéresse davantage, c’est d’avoir une foule de workers non fiables sur Internet.

Par exemple, dans AutoResearch, tu veux trouver du code qui entraîne un modèle à une très faible validation loss. Si quelqu’un te donne un commit candidat, c’est facile de vérifier s’il est bon : quelqu’un peut prétendre sur Internet que ce code optimise mieux et améliore les perfs. Tu peux le vérifier simplement, mais ça peut demander du boulot ; et au fond, ils peuvent mentir.

Donc tu gères une situation qui ressemble un peu à un design avec un pool de workers non fiables, et ça ressemble un peu à une blockchain : au lieu de blocs, tu as des commits ; ces commits peuvent s’empiler ; ils contiennent des modifications “diff” au code. La “preuve de travail”, c’est exécuter énormément d’expériences pour trouver un commit qui marche. C’est dur. La récompense, c’est entrer dans un classement. Pas d’argent. Je ne veux pas pousser l’analogie trop loin. Mais au fond, le problème : il faut énormément de search, tandis que le coût de vérification d’une solution candidate est faible, parce que tu peux juste entraîner et vérifier. Quelqu’un doit tester 10 000 idées, mais toi tu n’as qu’à vérifier si le résultat fonctionne ; 9 900 ne marchent pas.

Donc, en bref, il faut imaginer un système où un pool de workers non fiables collabore avec un pool de workers fiables qui fait la vérification ; c’est asynchrone, ça marche ; et c’est sécurisé, parce que si quelqu’un t’envoie du code arbitraire et que tu l’exécutes, c’est très risqué. Mais au fond, c’est possible.

Tu connais des projets comme SETI@home et Folding@home : même genre. Pour Folding@home, c’est cher de trouver une conformation à faible énergie, mais si quelqu’un pense en avoir trouvé une, tu peux la vérifier facilement. Beaucoup de choses ont cette propriété : proposer est cher, vérifier est bon marché. Donc AutoResearch@home serait adapté. En bref : une foule d’agents sur Internet pourrait coopérer pour améliorer des LLM, peut-être même tourner autour des Frontier Labs. Qui sait ?

Les Frontier Labs ont beaucoup de calcul fiable, mais la planète est plus grande et a énormément de calcul non fiable. Si tu mets un système de “checks” qui gère ça, peut-être que la foule trouvera de meilleures solutions, et les gens contribueront des cycles sur les choses qui les intéressent.

Désolé, dernière idée : beaucoup d’entreprises, etc., ont des sujets qui leur tiennent à cœur ; et toi, si tu as du calcul, tu peux contribuer à différents types d’AutoResearch. Par exemple, tu te soucies du cancer, ou d’un domaine ; au lieu de juste donner de l’argent à une institution qui achète du calcul, tu peux rejoindre le forum AutoResearch du projet : le calcul devient ta contribution au pool.

Oui, c’est très inspirant. Et c’est intéressant : je ne sais pas jusqu’où ça ira. Mais c’est frappant de voir que—au moins pour une partie du public—dans la Silicon Valley ou ailleurs, des magasins de retail en Chine ont découvert qu’utiliser un PC personnel redevenait intéressant.
Oui.
Exact. Donc peut-être qu’ils seront motivés à faire ça pour leurs agents en arrière-plan, puis ils peuvent contribuer à AutoResearch.

C’est presque comme si le dollar était ce qui compte pour tout le monde, mais est-ce que le throughput sera vraiment ce qui comptera pour tout le monde dans le futur ? Est-ce que ce qui te tient à cœur va changer radicalement ? Par exemple, aujourd’hui, même si tu as de l’argent, c’est difficile d’obtenir du calcul.
Oui.
Donc, d’une certaine manière, le throughput semble dominer. Oui. Donc peut-être que c’est un peu comme “combien de FLOPs tu contrôles”, plutôt que “combien de richesse tu contrôles”. Je ne pense pas que ce soit vrai, mais c’est amusant à penser.

Ton dernier post, c’était une analyse de données d’emploi, c’est ça ? Même si tu voulais juste visualiser des données publiques, qu’est-ce qui t’a touché ? Tu étais curieux de quoi ?
Oui, je suis curieux : tout le monde pense à l’impact de l’IA sur le marché du travail. Donc je voulais voir à quoi ressemble le marché : où sont les rôles, combien de personnes dans quels métiers. Je voulais regarder des cas individuels, réfléchir à mes idées sur l’IA et leur évolution : est-ce que ces outils vont remplacer des métiers ? Comment les métiers vont changer ? Est-ce qu’ils vont croître, s’ajuster ? Quels nouveaux métiers pourraient apparaître ? Donc c’était une façon de déclencher une chaîne de réflexion pour moi.

Les données d’emploi viennent du Bureau of Labor Statistics : ils font des prédictions sur les perspectives de chaque métier, combien ils pensent que ça va croître dans la décennie à venir. Je crois que c’est une décennie, et c’est produit en 2024.

On aura besoin de beaucoup de personnels médicaux.

Oui. Ils ont ces prédictions. Je ne suis pas 100% sûr de leur méthode. Mais si on pense que l’IA développée maintenant est surtout une IA “numérique”, comme des fantômes ou des entités spirituelles qui interagissent dans le monde numérique et manipulent de l’information numérique, mais qui n’ont pas encore d’incarnation physique—alors le physique sera un peu plus lent, parce que tu manipules des atomes. Flipper des bits et copier-coller de l’info numérique accélère tout d’un facteur énorme par rapport à la matière.

Donc je pense qu’on verra énormément d’activité dans l’espace numérique : beaucoup de réécriture, beaucoup d’ébullition. Des choses à la vitesse de la lumière dans le numérique, comparées à ce qui se passera dans le monde physique, si on extrapole. Donc il y a une tension : beaucoup de traitement d’information numérique, auparavant fait par des ordinateurs et des humains, a maintenant une troisième catégorie de manipulateur d’info numérique : l’IA. Il y aura une grosse refonte dans ces disciplines. Mais pendant un moment, le monde physique restera comme il est.

Donc ce qui me fascine, c’est les métiers qui manipulent de l’info numérique. C’est le travail qu’on peut faire depuis chez soi. Les choses vont changer : ça ne veut pas dire que ces emplois vont baisser ou monter (élasticité de la demande, etc.), mais la nature de ces métiers va changer, parce que ces outils sont une mise à niveau du “système nerveux” humain-superorganisme, si on veut.

À partir de tes observations, quels conseils ou observations pour des gens qui affrontent le marché, ou qui se demandent quoi apprendre et quelles compétences développer ?
Je suis reconnaissant de devoir rencontrer des gens au travail.
Plus physique. Oui.
Tu peux faire ton travail à la maison ?
Je peux… je pense que la partie relationnelle est difficile, mais la plupart, oui.

Oui, c’est difficile à dire. Le marché est extrêmement diversifié. Mais ces outils sont nouveaux et très puissants, donc juste “suivre” est la première chose. Beaucoup de gens l’ignorent, ou ils en ont peur, ce qui est compréhensible. Pour l’instant, c’est un outil d’empowerment : un métier est une suite de tâches, certaines peuvent être faites plus vite. Donc il faut le voir comme un outil majeur. Le futur long terme est incertain. Prédire est très difficile, et ce n’est pas mon métier : c’est celui des économistes.

Mais tu es ingénieur. Et une chose intéressante : la demande en ingénierie continue d’augmenter.
Oui.
Je ne sais pas si c’est temporaire. Je ne sais pas ce que j’en pense.
Oui. La demande de software est presque “rare”, non ? Donc la seule raison pour laquelle on n’en veut pas plus, c’est sa rareté et son coût.
Trop cher. Oui.

Donc si la barrière baisse, on a un paradoxe de Jevons : la demande en software augmente. Plus c’est bon marché, plus il y en a. L’exemple classique : les distributeurs ATM et les guichetiers. Les gens craignaient que les ATM remplacent les guichetiers, mais en fait ils ont rendu les agences moins coûteuses, donc il y a eu plus d’agences, donc plus de guichetiers.

Donc je suis prudemment optimiste : du point de vue du software, la demande sera énorme, et il deviendra moins cher. Donc à moyen terme, la demande augmentera : le software est incroyable, le traitement d’info numérique, etc. Tu n’es plus forcé d’utiliser des outils imparfaits ; le code devient éphémère : tu peux le changer, le modifier. Donc il y aura beaucoup d’activité dans l’espace numérique, une reconnexion de tout. Ça créera une énorme demande.

À long terme, oui : même AutoResearch… Les labos comme OpenAI, Anthropic, emploient environ mille chercheurs. Et ces chercheurs sont comme des voitures autonomes glorifiées : ils s’auto-automatisent. C’est ce qu’ils essaient de faire.

Je me balade, et certains chercheurs ressentent l’euphorie, parce qu’ils peuvent faire marcher le truc. Oui.
Exact. Ils se disent : “oh, moi aussi je suis fini”.

Je passe du temps à regarder autour de moi : “vous réalisez que si on réussit, on est tous au chômage ?” On construit juste de l’automatisation pour Sam ou pour le board, ou le CEO, je ne sais pas. On est tous au chômage, peut-être qu’on contribuera à côté. Donc oui, de ce point de vue, c’est stressant.

Je peux te poser la question “Noam” ? Tu peux faire le bon truc avec beaucoup de scale de calcul et une équipe au labo frontier : pourquoi ne pas… ?

J’y ai été un moment, puis j’en suis sorti, puis j’y suis revenu. Donc d’une certaine manière je suis d’accord : il y a beaucoup de façons de résoudre ça. C’est une question lourde.

Je dirais : je suis très satisfait de l’impact que des gens peuvent avoir en dehors des labos frontier—pas forcément dans l’industrie, mais au niveau de l’écosystème. Ton rôle est plutôt “écosystème”. Mon rôle aujourd’hui aussi. Je suis très satisfait de l’impact dans ces rôles.

Mais j’ai aussi des inquiétudes : tu es beaucoup aligné économiquement avec ces labos. Tu admets que l’IA va changer la société de façon dramatique, et tu construis la technologie et en profites financièrement : c’est un dilemme central, le dilemme d’OpenAI au départ.

Et ce dilemme n’est pas résolu. Premièrement : tu n’es pas un agent totalement libre. Tu ne peux pas participer à une conversation de façon pleinement autonome : dans un labo frontier, il y a des choses que tu ne peux pas dire. L’organisation veut que tu dises certaines choses. Ils ne te tordent pas le bras, mais tu ressens une pression : “c’est ce que je devrais dire”, sinon c’est awkward, des regards bizarres. Tu ne peux pas vraiment être un agent indépendant.

D’une certaine manière, hors des labos, je suis plus aligné avec les humains, car je ressens moins ces pressions. Je peux dire ce que je veux dire. Évidemment, tu peux avoir de l’impact dans un labo, il y a des chercheurs, peut-être toi, avec de très bonnes idées. Et il y a beaucoup de décisions, et tu veux être dans la pièce quand elles se prennent. Pour l’instant, le risque global est bas, tout va bien. Mais quand les enjeux deviennent élevés, si tu es employé d’une organisation, je ne sais pas à quel point tu as réellement de l’influence. Au final, tu n’es pas responsable : tu es dans une salle, tu contribues des idées, mais tu n’es pas “aux commandes” de l’entité. Donc il y a des sources de dysfonctionnement.

Et je suis d’accord sur un autre point : les labos sont opaques, ils travaillent au bord des capacités et des possibles, ils savent ce qui arrive. Si tu es hors du labo frontier, ton jugement dérive, parce que tu n’es pas dedans : tu ne sais pas ce qui vient. Donc je sens que mon jugement dérivera. Je ne comprends pas exactement comment ces systèmes marchent en coulisse, comment ils vont évoluer : c’est opaque.

Donc, dans ce sens, je suis d’accord, mais ça me rend nerveux. Je pense que ça vaut le coup. Si un labo frontier me demandait de venir, passer du temps, faire du vrai travail, puis repartir, ce serait excitant. Ça pourrait être un bon setup : rester connecté à ce qui se passe sans se sentir entièrement contrôlé par ces entités.

Donc honnêtement, quelqu’un comme Noam pourrait faire un excellent travail chez OpenAI, mais je pense aussi que son travail le plus impactant est probablement hors d’OpenAI.

Non, c’est un appel à AutoResearch en tant que chercheur indépendant. Oui, il y a beaucoup à faire dehors. Je pense qu’une solution idéale, c’est d’aller-retour, ou… au fond, tu peux avoir un impact incroyable depuis les deux endroits. C’est complexe. C’est une question lourde. Mais j’ai rejoint un labo frontier, je suis sorti, peut-être je rejoindrai à nouveau : c’est un peu ma position.

Une question liée à la visibilité du “frontier” depuis le monde et l’écosystème IA : à quelle distance l’open source est du frontier, et sa durabilité. Oui, je pense que c’est assez… La séquence d’événements surprenante, c’est l’arrivée de certains modèles chinois et mondiaux : à court terme, les releases vont continuer, et du point de vue des capacités, ils sont plus proches du frontier que ce que l’industrie attendait.

Je ne sais pas si ça t’a surpris. Tu es un contributeur open source de longue date. Quel est ton pronostic ?
Oui. En gros : les modèles fermés sont devant, et les gens mesurent combien de mois l’open source est derrière. Au début, il n’y avait rien, puis c’était 18 mois ; maintenant ça converge. Peut-être qu’ils sont derrière de 8 à 6 mois, quelque chose comme ça.

Je suis un grand fan de l’open source. Dans les OS, Windows et Mac OS sont fermés : gros projets. Mais il y a Linux : Linux est énorme et très réussi, il tourne sur une majorité des machines—la dernière fois que j’ai regardé, ~60% tournent sur Linux. Parce que l’industrie a besoin d’une plateforme ouverte commune, que tout le monde peut utiliser en sécurité. Il y a ce besoin depuis longtemps, et je pense que c’est pareil ici : les entreprises veulent ça.

La grande différence : ici, tout est du capital, des capex. Donc ça rend la compétition plus difficile. Mais les modèles actuels sont très bons. Et ce qui est intéressant : pour la plupart des use cases consommateurs, même les modèles “open source” sont assez bons. Si on continue, ça veut dire que beaucoup de cas simples seront bien couverts, peut-être localement.

Mais il y aura toujours une demande pour l’intelligence frontier, et c’est une grosse part du gâteau. La demande pour l’intelligence frontier, c’est du travail “Nobel”, ou “portons Linux de C à Rust”. Ce sont de gros projets. Et c’est là que l’intelligence fermée frontier interagira, tandis que l’open source avalera les cas plus basiques.

À un moment, le frontier d’aujourd’hui sera open source : peut-être plus tard cette année, ce que j’utilise dans les labos fermés aujourd’hui sera open. Ça demandera du travail. Donc je m’attends à ce que cette dynamique continue : des Frontier Labs avec des IA fermées, comme des oracles, puis quelques mois plus tard une version proche en open source. Je pense que globalement c’est un bon setup.

Parce que j’hésite : je ne pense pas que structurellement on devrait n’avoir que de l’intelligence fermée, ça crée des risques systémiques. Je pense que la centralisation, historiquement, a un bilan très mauvais.
Tu veux dire en politique/économie ?
Oui. Exactement. Il y a eu beaucoup de très mauvais présidents. Donc je veux quelque chose, peut-être pas au bord du frontier (parce que c’est nouveau et inexploré), mais quelque chose derrière : un espace de travail public d’intelligence accessible à toute l’industrie. À mes yeux, l’équilibre de pouvoir est assez bon.

Oui, mais il y a beaucoup de problèmes à résoudre : si on pousse sans cesse le frontier, on peut faire de nouvelles choses, mais l’humanité rencontre de gros problèmes. Et ça reste un jeu très cher. Donc je veux soutenir les labos qui poussent la frontière, parce que sans ça, on ne résout pas certains problèmes.

Cependant, comme tu le dis, si le frontier d’aujourd’hui était ouvert, ce serait déjà énormément de capacité. Oui. Donc sa démocratisation paraît utile et saine.

Oui, je pense que, par accident, on est dans une position plutôt bonne et proche de l’optimum.
D’une certaine manière, on a eu la chance d’être dans une position favorable.

Et plus longtemps cette dynamique dure, plus l’écosystème est sain : la surface sous la courbe grandit.

Je dirais : même côté “proche”, je sens une centralisation récente : certains leaders ne sont pas vraiment une “top team”. Donc ce n’est pas idéal. Je voudrais plus de “du front au back”. Par défaut je suis très sceptique : je veux plus de gens dans la pièce. En ML, les ensembles battent toujours un modèle individuel. Je veux une foule de gens qui réfléchissent aux questions difficiles, une foule informée qui prend les décisions. Je ne veux pas une porte fermée par deux ou trois personnes. Ce n’est pas un bon futur.

Je voudrais plus de labos. Bref : l’open source a un rôle. J’espère que ça tiendra. Le fait que ça soit un peu en retard, c’est plutôt bien.

Ok. Tu es un pionnier de l’autonomie robotique généraliste, notamment via l’autonomie automobile, non ? Ces derniers mois, il s’est passé beaucoup de choses en robotique : accélération impressionnante de la généralisation en environnements de tâches, des tâches longues, beaucoup de financement. Ça va arriver ? Ton point de vue a-t-il changé récemment ?

Mon point de vue vient de ce que j’ai vu en conduite autonome : je pense que c’était la première application robotique. Il y a 10 ans, beaucoup de startups, la plupart n’ont pas eu un succès long terme. Ça demande des capex énormes et beaucoup de temps. Donc je pense que la robotique est similaire : c’est dur et chaotique, ça demande énormément de capital et une certaine foi. C’est un gros sujet. Donc je pense que ça sera en retard par rapport à ce qui se passe dans le numérique, où il y aura énormément de chaos, et où les choses inefficaces deviennent 100x plus efficaces. Les bits sont trop faciles.

Donc je pense qu’on verra d’abord un grand changement dans l’espace numérique, puis le physique suivra. Ce que je trouve intéressant, c’est l’interface entre les deux. Si on a plus d’agents qui agissent pour les humains, qui se parlent entre eux, exécutent des tâches, participent à une économie d’agents… tu opères purement dans le numérique. À un moment, tu dois aller vers l’univers : poser des questions, faire une expérience, voir ce que l’univers te dit, revenir apprendre.

Aujourd’hui, il y a beaucoup de travail numérique, parce qu’on a des questions ouvertes sur notre pensée collective à propos de ce qui est déjà numérisé. Les humains n’ont pas assez de cycles de pensée pour tout ce qui est déjà uploadé. On va finir par “épuiser” ce qui est déjà en ligne : lire toutes les papers, les traiter, générer des idées. Mais si tu as une intelligence entièrement fermée, avec seulement l’info disponible… je ne sais pas.

Donc je pense : d’abord un gros déverrouillage, énormément de travail ; puis un pivot vers l’interface physique-numérique : capteurs qui voient le monde, actuateurs qui agissent. Beaucoup de boîtes intéressantes viendront de là : peut-on fournir à une superintelligence de nouvelles données ? Peut-on, sur commande, obtenir des données et manipuler le monde physique ? Le marché adressable est énorme, peut-être plus grand que le numérique. Mais c’est un travail gigantesque : les atomes sont un million de fois plus durs. Donc ça viendra plus tard, mais ce sera énorme.

C’est un cadre intéressant. Certaines choses sont plus faciles dans le monde des atomes : lire/écrire le monde via des capteurs/caméras, avec du hardware existant. Tu peux imaginer enrichir les capacités des agents, capturer beaucoup de nouvelles données, sans forcément des investissements gigantesques, si tu es assez malin.

Oui. Exemple : mon ami Liam dirige une boîte (il est CEO) ; je les ai visités la semaine dernière. Ils essaient de faire AutoResearch pour la science des matériaux. Là, le capteur intelligent, c’est un équipement de laboratoire très cher. En biologie aussi. Beaucoup de gens aiment l’ingénierie biologique ; les capteurs ne sont pas juste des caméras.

Autre chose : certaines entreprises veulent payer des gens pour des données d’entraînement—par exemple pour “nourrir” le modèle, programmatiquement. Nourrir le Borg. D’une certaine manière, ce sont des capteurs : ça prend plein de formes.

J’attends le jour où je pourrai demander une tâche dans le monde réel, la prixer, et dire à l’agent : “tu sais comment faire, va chercher des données”.

Je suis surpris qu’on n’ait pas assez de marchés de l’information. Par exemple, les marchés de paris ou boursiers ont déjà beaucoup d’activité autonome, et ça augmente. Si un événement en Iran vient de se produire, pourquoi n’y a-t-il pas un processus où une photo/vidéo depuis tel endroit vaut 10 dollars ? Quelqu’un devrait pouvoir payer ça. C’est un exemple de “fournir du renseignement” : personne ne la regarde directement, ce sont des agents qui essaient d’anticiper les marchés.

Donc je pense que les réseaux d’agents sont encore nouveaux, on n’a pas ces mécanismes. Mais c’est un exemple de ce qui pourrait arriver. Il y a un bon livre inspirant, Daemon, tu l’as peut-être lu. L’intelligence finit par être une manipulation de marionnettes : les humains deviennent un peu les actuateurs de l’intelligence, mais aussi les capteurs. Donc la société se refaçonnera collectivement pour servir ce type de dynamique : plus d’automatisation, et une demande à laquelle les humains répondront, pas forcément entre eux, mais pour les machines.

Sur ce point précis : manque de données d’entraînement, besoin d’AutoResearch, besoin de rendre les cycles d’entraînement/SFT plus mécaniques… Pour quelle partie ? Pour sortir l’humain de la boucle et dire : “améliore la qualité de mon modèle” avec de nouvelles données, n’est-ce pas ?
Oui.

Ça fait sens pour toi ? Si tu ne peux pas laisser le modèle s’entraîner lui-même, tu peux en faire une tâche en boucle fermée : prixer les données, etc.
Oui.
Plus difficile.
Oui. Oui. 100%.

Mais aujourd’hui, l’entraînement LLM est en fait très “facile” dans ce paradigme : métrique propre. L’entraînement LM s’y prête très bien, comme l’optimisation de code : ça tourne plus vite, et tu as des métriques optimisables. Si tu as une boucle autonome sur ces métriques, le système va sur-optimiser ces métriques, et il y aura beaucoup de bons efforts. Mais tu peux aussi utiliser le système pour concevoir de meilleures métriques et avoir une bonne couverture. Donc c’est difficile à dire, mais ça colle très bien.

Avant de finir, je veux parler d’un de tes petits projets : parle-moi de micro GPT.
Oh oui. Ok. micro GPT. Je suis obsédé depuis un an ou deux par l’idée de simplifier les LLM à leur essence. J’ai fait beaucoup de projets comme ça : nanoGPT, etc. micro GPT est, je pense, l’état de l’art : j’essaie de réduire à l’essentiel. Entraîner des réseaux et des LLM, c’est beaucoup de code, mais cette complexité vient de l’efficacité : il faut que ça tourne vite.

Si tu n’as pas besoin que ça aille vite et que tu ne cares que de l’algorithme, l’algorithme tient en ~200 lignes de Python, très lisibles, avec commentaires et tout. Tu as un dataset texte. Tu as ~50 lignes d’architecture. Tu fais une passe avant, puis une rétroprop pour les gradients. Un petit moteur autograd, ~100 lignes. Un optimiseur, par exemple Adam, ~10 lignes. Le tout dans une boucle d’entraînement : ~200 lignes. Ça m’amuse.

Avant, si j’avais sorti micro GPT, j’aurais voulu expliquer aux gens : faire une vidéo qui parcourt étape par étape, un guide, etc. Mais j’ai réalisé que ça n’ajoute pas grand-chose : c’est déjà simple, 200 lignes, et n’importe qui peut demander à son agent de l’expliquer de mille façons. Et des gens comme moi n’expliquent plus aux humains : j’explique aux agents. Si tu peux l’expliquer à l’agent, l’agent devient un routeur : il peut l’expliquer à l’humain dans sa langue, avec patience infinie.

Exact. Si je ne comprends pas une fonction particulière, je peux demander à l’agent de me l’expliquer de trois manières différentes, mais je ne vais pas forcément te le demander à toi.
Exactement.

Donc je me dis : c’est quoi l’éducation ? Avant, c’était des guides, des cours magistraux. Maintenant, c’est plus : j’explique aux agents. Et peut-être que la compétence, c’est “guider l’agent pour enseigner”. Peut-être que je peux empaqueter une “compétence” pour parcourir micro GPT : si tu veux comprendre ce dépôt, l’agent devrait te guider : “commence par ça, puis ça”, comme un prompt du modèle. Je peux écrire un cours un peu comme une compétence.

Donc je pense qu’on expliquera moins directement aux humains, et plus : est-ce que l’agent a “reçu” ? Si l’agent a reçu, il fera l’explication. On n’y est pas complètement, parce que je peux encore parfois mieux expliquer qu’un agent, mais les modèles s’améliorent si vite que ça ressemble à une bataille perdue. Donc je pense que l’éducation va être totalement remélangée : fin de l’enseignement “humain à humain”, et bascule vers “documentation pour agents”. Si j’ai un codebase, avant je faisais de la doc HTML pour humains ; maintenant je fais de la doc Markdown pour agents. Si l’agent comprend, il peut expliquer toutes les parties différemment. Donc c’est une redirection via agents. Je pense qu’on verra plus de ça.

On verra si les grands profs veulent développer une intuition pour expliquer aux agents autrement.

Au final, pour micro GPT : j’ai essayé de trouver un agent qui écrive micro GPT. Je lui ai dit : “essaie de réduire au plus simple, à l’essence d’un réseau neuronal”, mais il n’y arrive pas. micro GPT, c’est l’aboutissement de mon obsession : 200 lignes. J’y ai pensé longtemps. C’est la solution. Crois-moi, ça ne peut pas être plus simple. C’est ma proposition de valeur. Tout le reste, l’agent l’a.

Il n’arrive pas à l’inventer, mais il comprend totalement et sait pourquoi une chose doit être faite ainsi. Donc ce que je peux apporter, c’est peut-être quelques parties rares ; pour le reste—enseigner et exprimer—ce ne sera peut-être plus mon domaine. Donc l’éducation pourrait changer pareil : tu dois injecter activement les parties où tu as un jugement fort, ta meilleure explication. Ce que les agents ne peuvent pas faire aujourd’hui, c’est ton travail ; et ce qu’ils peuvent faire, ils le feront bientôt peut-être mieux que toi. Donc tu dois être plus stratégique sur là où tu passes du temps.

Très bien, merci beaucoup, Andrej.
Ok.

Vous pouvez suivre No Priors sur Twitter/X ; si vous voulez la version vidéo, abonnez-vous à leur chaîne YouTube. Vous pouvez aussi suivre l’émission sur Apple Podcasts, Spotify, ou toute autre plateforme où vous écoutez vos podcasts, pour recevoir un nouvel épisode chaque semaine. Vous pouvez aussi aller sur no-priors.com pour vous inscrire à la newsletter, ou consulter la transcription de chaque épisode.