«Конец кодинга»: Andrej Karpathy о Agents, AutoResearch и «циклической эпохе» AI | полный перевод на китайский

原视频:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
视频链接:https://www.youtube.com/watch?v=kwSVtQ7dziU

说明:以下为完整中文翻译稿,尽量保留原意与结构,仅删除少量无意义语气词(如 um、uh)。

«Писать код» даже уже не точный глагол, да? Сейчас я скорее по 16 часов в день формулирую намерения своим агентам — и «материализую» результат.
Как мне иметь не просто одну сессию Claude Code или Codex или какой-то агентный фреймворк? Как мне иметь больше? Как мне сделать это правильно? Агентная часть теперь воспринимается как данность. Теперь «сущности класса Claude» воспринимаются как данность; теперь у вас может быть несколько сущностей; теперь вы можете давать им инструкции; теперь вы можете оптимизировать инструкции. Но я к тому, что именно поэтому это так затягивает: это как бесконечность, и всё — вопрос навыка.
Здравствуйте, слушатели, добро пожаловать обратно в No Priors. Сегодня мы с Andrej Karpathy (Andre Karpathy) здесь, и у нас будет широкий разговор о кодовых агентах, будущем инженерии и исследований в ИИ, о том, как больше людей смогут вносить вклад в исследования, о том, что происходит в робототехнике, о его прогнозах, как агенты будут соприкасаться с реальным миром, и об образовании следующей эпохи. Добро пожаловать, Андрей. Андрей, спасибо, что пришёл. Да, спасибо, что пригласили меня.
Итак, последние несколько месяцев в ИИ были очень захватывающими.
Да, можно и так сказать.
Я помню, как однажды зашёл в офис, а ты будто «залип». Я спросил, что ты делаешь, и ты сказал: я просто должен кодить по 16 часов в день, иначе «кодить» уже не подходящий глагол, да? Но мне нужно…
по 16 часов в день выражать свои намерения агентам. И это бросается в глаза, потому что произошёл скачок возможностей.
Что случилось? Расскажи о своём опыте.

Да, у меня ощущение, что я постоянно в таком состоянии эйфории от ИИ — как и всегда. Потому что как человек ты можешь добиться огромного, верно? Потому что твой узкий горлышко — это скорость печати и прочее. Но теперь, с этими агентами, я бы сказал: в декабре всё перевернулось — я перешёл с 80/20 на 20/80: писать код самому, а не просто делегировать агенту. Я даже не думаю, что сейчас это уже 20/80. Думаю, гораздо дальше. Я не думаю, что с декабря я вообще набрал хоть одну строку кода — это очень большое изменение. Я разговариваю с ним так же, как обсуждаю это с родителями и т. п. И мне кажется, обычные люди не осознают, что это произошло, и насколько это драматично: если вы просто подойдёте к случайному инженеру-программисту за его столом, то то, что он делает как «дефолтный» рабочий процесс — с декабря стало совершенно другим. Так что я в этом состоянии «эйфории» пытаюсь понять, что возможно, пытаюсь дожать до предела. Как мне иметь не просто один Claude Code или Codex или какой-то агентный фреймворк? Как мне иметь больше? Как мне сделать это правильно? Как мне использовать таких фоновых агентов? Что такое эти фоновые агенты?
Так много нового. Понимаешь, я хочу быть на переднем крае, но я нервничаю, потому что я не на переднем крае. Я вижу в Twitter, как люди делают всякие штуки — звучит как очень хорошие идеи. Мне нужно быть на переднем крае, иначе мне становится очень тревожно. Так что, думаю, я просто в этом состоянии «возможности ещё не исследованы», потому что фундаментально это ещё не изучено.
Ну, если ты нервничаешь, то все остальные тоже будут нервничать. У нас есть команда, с которой мы работаем, и мы искренне убеждены, что у них всё устроено так, что, типа, ни один инженер не пишет код руками — они все в микрофонах и просто любят постоянно шептать своим агентам. Это самая странная рабочая среда в истории. Я думал, они сумасшедшие — а сейчас я полностью принял это чувство: «О, вот как оно». Ты прямо впереди.

Как ты оцениваешь свою способность сейчас исследовать или делать проекты — что тебя ограничивает?

Да. Что меня ограничивает? Просто мне кажется, как и во многом, даже когда что-то не работает, в значительной степени ощущение такое: это вопрос навыка. Не то что способности нет — просто ты ещё не нашёл способ скомбинировать доступные куски. Например, может, я не написал достаточно хорошую инструкцию в agent/MD файле или где-то ещё; или не подключил достаточно хороший инструмент памяти и т. п. Так что когда система работает не так, как ожидалось, это скорее напоминание: может, навыка использования не хватает, или ты ещё не распараллелил это как следует. По сути, ты хочешь быть как Питер Штайнбергер. Питер известен: есть забавная фотография, где он стоит перед мониторами, и там куча, типа, того, как он использует Codex. Потому что многие Codex-агенты, если правильно промптить и сильно постараться, требуют около 20 минут. То есть им нужно около 20 минут. У него их несколько; у него, знаешь, выкачано 10 репозиториев — и он просто ходит между ними и даёт им работу. Типа ты можешь делать более крупные, «макро»-действия. Это уже не строка кода — это новый функциионал. Это: вот новая фича — отдать агенту №1. Вот фича, которая не помешает другим фичам. Дать ей две минуты, а потом — в зависимости от того, насколько тебе важен этот код — как можно тщательнее проверить их работу. Типа: какими макро-операциями я могу управлять своим репозиторием?
Другой агент параллельно делает что-то вроде ресёрча, другой пишет код, другой предлагает новый план реализации. И всё — это макро-операции над репозиторием; ты просто хочешь стать в этом очень хорошим и довести это до «мышечной памяти», потому что это очень… да, это очень ценно, во‑первых потому что это реально работает, но ещё и потому что это немного похоже на новую вещь, которую нужно выучить. Отсюда и «затягивание». Да, я правда чувствую, что моя интуиция такая: каждый раз, когда я жду, пока агент закончит что-то, очевидная мысль — ну, я могу сделать больше работы, верно? Типа если бы я мог получить больше токенов, то я должен был бы… парализующе — накидать ещё задач. Это довольно стрессово, потому что если вы не чувствуете, что ваша способность «тратить токены» сильно ограничена, значит вы понимаете, что самый большой узкий горлышко в системе — это вы сами.

Да. Ты хотя бы не максимизируешь подписку; в идеале — для нескольких агентов: если ты упёрся в лимит Codex, надо переключаться в облако или что-то такое. Я не знаю — я именно это и пытаюсь делать. Когда у меня остаётся неиспользованная подписка, я нервничаю: это значит, я не максимизирую пропускную способность по токенам. Я, кстати, испытывал это ещё в аспирантуре: когда твои GPU не заняты, ты нервничаешь — у тебя есть GPU‑мощность, а ты не максимизируешь доступные FLOPs. Но теперь это не про FLOPs, а про токены: каков твой токенный throughput, каков токенный throughput твоих команд. Я бы сказал, это интересно: мы говорили вам лет десять, что во многих инженерных задачах люди работают так, будто вычисления не ограничены.
Да, а сейчас вся индустрия чувствует, что ресурсы ограничены.
Теперь, когда произошёл такой скачок возможностей, ты думаешь: «О, вообще-то моя способность получать вычисления — как у тебя — это связывающее ограничение».
Да, это вопрос навыка.
Это очень мощно, потому что да — ты можешь становиться лучше. Поэтому, думаю, это легко вызывает зависимость: по мере того как становишься лучше — открывается новое.

Куда, по‑твоему, это пойдёт? Типа если представить, что ты итеративно улучшаешься, и другие люди тоже по 16 часов в день используют кодовых агентов — как выглядит «мастерство» через год?

Да. Как будет выглядеть мастерство к концу года, или через два, три, пять, десять лет и т. д.

Ну, думаю, все в целом заинтересованы в «поднятии стека». То есть это не «одна встреча» с агентом. Как несколько агентов взаимодействуют и работают как команда и т. п. Все пытаются понять, как это выглядит. И затем, думаю, фоновые агенты — тоже интересное направление. Под фоновыми агентами я имею в виду слой, который поднимает персистентность на совершенно новый уровень. Это как постоянно крутящаяся штука — не такая, где ты обязательно интерактивно участвуешь. У неё как бы своя маленькая песочница; она как бы делает дела за тебя, даже когда кажется, что ты ничего не делаешь. А дальше возможны более сложные системы памяти и т. п., которые пока ещё не реализованы в агентах. Так что, думаю, такие резидентные фоновые агенты должны иметь более сложную память, чем дефолтные агенты — а не просто «сжатие памяти, когда контекст закончился». Верно.

Ты думаешь, это больше зацепит пользователей — именно такая «постоянно работающая» агентность, а не просто более широкий доступ к инструментам — для таких резидентных фоновых агентов?

Да. Там, мне кажется… по крайней мере, мне кажется, там очень много хороших идей. Да. Хорошая работа, Питер.
Питер реально сделал потрясающе. Я недавно его видел, говорил с ним об этом — он очень скромный, но, как мне кажется, он одновременно инновационно работает в пяти разных направлениях и складывает их вместе. Например, SOUL и MD‑файлы: он действительно сформировал убедительную и интересную «личность» — и мне кажется, многие текущие агенты этого не понимают. Честно, мне кажется, у Claude хорошая личность: ощущается как товарищ по команде, ты воодушевлён и т. д. А, например, Codex более сухой. Это интересно: в ChatGPT он кажется более оптимистичным и легче «идёт за тобой», а вот кодовый агент Codex — очень сухой. Такое ощущение, что ему всё равно, что ты строишь. Типа: «О, я это реализовал». А ты такой: «Окей, но ты понимаешь, что мы строим?»
Это правда.
Знаешь, как будто нет. Ещё одна вещь: например, Claude, мне кажется, хорошо решает проблему «лести/подсаживания»: когда Claude меня хвалит, у меня реально есть чувство, что я это заслужил. Потому что иногда я даю ему сыроватую идею — я даю мысль, которая ещё не до конца созрела, и он не реагирует сверхсильно. Типа: «О, да, мы можем это сделать». Но когда я сам думаю, что это действительно очень хорошая идея, он как будто действительно «отдаёт больше». И я ощущаю, что хочу заслужить его похвалу — это очень странно.
Так что я правда думаю, что личность важна. Я думаю, многие другие инструменты могут это недооценивать. И мне кажется, Питер тоже очень об этом заботится — это правильно. А потом — система памяти. И, знаешь, ему это просто интересно. А ещё — единый WhatsApp‑портал ко всей автоматизации.

Да. Помимо софтверной инженерии, ты делал руками что-то, что тебе показалось интересным или забавным?

Да. В январе у меня был фоновый агент — я прошёл фазу «эйфории от фоновых агентов». Я собрал фонового агента, который, по сути, может заботиться о моём доме. Я назвал его домовым эльфом Dobby. По сути, я попросил агента найти в локальной сети все подсистемы моего умного дома — и я был немного в шоке, насколько это «из коробки» работает. Типа, как я сказал: у меня дома Sonos. «Можешь попробовать найти?» И он реально сделал IP‑скан по локалке, обнаружил систему Sonos — и выяснилось, что там нет пароля или чего-то такого. Он просто подключился: «О, да, у тебя установлены такие-то Sonos‑системы. Давай попробую отреверсить, как это работает». Он поискал в интернете, нашёл, что это API‑эндпоинты. «Хочешь попробовать?» Я такой: «Давай». Я сказал: «Да, можешь попробовать включить что-нибудь в кабинете?» И он включил — музыка заиграла. И я такой: «Я не верю…» Это же безумие. Типа три промпта. Да.
Я не могу поверить, что я просто ввёл: «Можешь найти мой Sonos?» — и вдруг он начинает играть музыку. То же самое он сделал со светом. По сути, как будто «взломал» всё это: разобрался во всём, сделал API, сделал дашборд, чтобы я видел командный центр — типа все лампы дома — и мог их включать/выключать. Так что я могу, например, спросить Dobby перед сном: «Я засыпаю» — и это значит, что все лампы выключаются, и т. д. Он управляет моим освещением, HVAC, шторами, бассейном и спа, и системой безопасности. У меня есть камера, смотрящая наружу; когда кто-то приходит, у меня визуальная модель смотрит видео. Во‑первых — детект изменений, верно?
А после детекта изменений он отдаёт кадр визуальной модели, анализирует, и потом пишет мне в WhatsApp. Он прикладывает фото у двери и говорит: «Эй, только что подъехал фургон FedEx, лучше проверь — возможно, тебе что-то доставили». Dobby вот так прямо пишет мне — это одновременно дико и очень круто. Сейчас Dobby по сути занимается этими домашними делами, а я общаюсь с ним через WhatsApp. Этот опыт макро‑операций, когда кто-то поддерживает весь дом за тебя, — очень интересный. Я ещё не доводил это до совсем уж экстремального уровня — знаю, многие играют куда более безумно. Но даже просто на уровне домашней автоматизации это уже очень полезно. Раньше мне надо было пользоваться шестью разными приложениями — теперь не надо. Dobby управляет всем на естественном языке — это поражает. Так что я чувствую: я ещё даже не довёл эту парадигму до предела, но она уже достаточно полезна и вдохновляющая.

Ты думаешь, это показывает, чего люди на самом деле хотят от UX в софте? Потому что часто упускают одну вещь: человеку нужно тратить усилия, чтобы выучить новый софт, адаптироваться к интерфейсу.
Да, я в каком-то смысле согласен. Это как будто наоборот: строить систему под то, как люди в голове представляют себе ИИ. Потому что для большинства людей ИИ — это не LLM в первичном смысле. LLM по сути — это генератор токенов, который просто выплёвывает ещё токены. А то, что люди на самом деле считают ИИ, — скорее «существо» с личностью и идентичностью: ты можешь ему что-то сказать, оно запомнит; это сущность, спрятанная за WhatsApp. Так это намного естественнее.
То есть в каком-то смысле это подгонка под ожидания людей о том, «как ИИ должен себя вести». Просто чтобы это сделать, внизу нужно запихнуть кучу технических деталей; а для большинства людей LLM как primitive всё ещё слишком груб — строго говоря, он ещё не очень похож на тот ИИ, который у них в голове.
Да, мне кажется, это также показывает, как мы понимаем ИИ. Назвать это Dobby, дать ему личность — очевидно, людям проще с этим резонировать. И ещё я думаю: то, что ты объединил шесть разных систем домашней автоматизации, указывает на другую проблему:
людям правда нужны сегодня вот такие разорванные куски софта?
Да.
Верно. Потому что в некотором смысле ты оставил железо, а софт — по крайней мере UX‑слой софта — просто выкинул. Как думаешь, это и есть то, чего люди хотят?

Да. У меня есть ощущение, что приложения из App Store, чтобы управлять умными домашними устройствами и т. п., в каком-то смысле вообще не должны существовать. Типа: разве это не должно быть просто API, и агент не должен использовать это напрямую? Разве я не могу делать массу задач домашней автоматизации, которые ни одно отдельное приложение нормально не делает, а LLM может реально драйвить инструменты, вызывать правильные инструменты и делать довольно сложные вещи?
Так что, в каком-то смысле, это действительно указывает: возможно, мы перепроизводим кастомные приложения, которые не должны существовать. Агенты как бы «перемалывают» их: всё должно быть скорее открытыми API‑эндпоинтами, а агент — умным клеем, который вызывает нужные инструменты и связывает детали. Другой пример — моя беговая дорожка: есть приложение для дорожки, я хочу отслеживать, как часто делаю кардио. Но я не хочу логиниться в web UI и проходить флоу и т. д. Всё это должно быть про то, чтобы сделать API доступным — это путь к агентному вебу, агент‑first инструментам и всему такому. Так что я думаю, индустрии придётся во многом перенастроиться: «клиент» больше не человек — это агент, который действует от имени человека. Такая перестройка, в каком-то смысле, может быть масштабной.
Иногда люди возражают так: а люди вообще хотят, чтобы обычные люди кодили некоторые из этих инструментов? Мы ожидаем, что обычный человек будет делать то, что я описал?
Но мне кажется, в каком-то смысле это просто техника, которая сегодня уже существует. Сейчас есть некоторый vibe coding — я реально наблюдаю это и пользуюсь этой системой. Но мне кажется, такие вещи, о которых я говорил, должны быть бесплатными через год‑два‑три. Без «фонового кодинга». Это тривиально. Это «входной билет». Это должно уметь любое ИИ — даже опенсорс‑модели и т. п.
Вы должны легко переводить человеческое намерение с низкой техничностью в это.
Очень легко. Да. Сегодня это требует vibe coding, но так делают не многие. Но…
Но тебе всё равно нужно принимать некоторые дизайн‑решения, верно? Мы говорим, например, о фреймворках.
Да.
Да. Но мне кажется, это только начало: барьер исчезнет. Это будет просто «эфемерный софт», который представляет тебя; нечто вроде резидентного фонового агента, который берёт на себя все детали, а ты в этом не участвуешь. У фонового агента есть машина; он решит задачу; он просто покажет тебе UI, и ты как бы говоришь то, что хочешь. Хм.

Почему ты не пытаешься прямо раздвинуть границы того, что лично ты и Claude можете сделать? Типа ты фокусируешься на более важных проектах — AutoResearch и т. п., или ты взбираешься на гору и т. д., верно?
Да. Я просто чувствую, что меня отвлекает вообще всё. Я потратил примерно неделю на вот это — а у меня почти наверняка есть более важные дела. Но я бы сказал… к сожалению, такие инструменты сами по себе становятся всё более «шумными» и всё более мощными.
Да, я пока не использую много вещей вроде почты, календаря и всего остального; я не дал этому доступ, потому что всё ещё немного подозрительно, всё ещё новое и края шероховатые. Так что я пока не хочу давать полный доступ к моей цифровой жизни. Частично из‑за безопасности и приватности — и в этой области нужно быть очень осторожным. Так что, думаю, часть вещей тормозится этим. Да, возможно, это «доминирующий» фактор. Но часть — просто потому что я отвлёкся: мне кажется, я занялся этим неделю, а потом случилось что-то ещё.
Ты говорил о том, что можно обучать или хотя бы оптимизировать модели под задачи, которые ты хочешь, чтобы агент выполнял долго. Какова мотивация AutoResearch?

AutoResearch — да. Я как-то твитнул: чтобы максимально использовать доступные инструменты, нужно убрать собственные узкие места. Нельзя сидеть и промптить следующий шаг. Нужно «убрать себя» из контура. Нужно организовать всё так, чтобы оно было полностью автономным, и чем больше ты понимаешь, тем больше ты понимаешь, как максимизировать токенный throughput, а не застревать в цикле. Это цель. Сейчас название игры — увеличивать своё «плечо влияния»: я иногда вкладываю немного токенов, а огромное количество всего происходит от моего имени.
И AutoResearch — как я твитнул — людям нравится, но, возможно, не нравится, что это значит на практике. Для меня AutoResearch — пример того, «что это значит»: я не хочу быть исследователем «в цикле», который проверяет результаты и т. п., потому что я торможу систему. Вопрос: как мне перестроить абстракции так, чтобы мне не нужно было наблюдать; чтобы я мог один раз настроить и нажать старт. Название игры — как заставить больше агентов работать дольше без твоего участия, делая вещи от твоего имени. AutoResearch — да, это цель, метрика, граница «что можно/нельзя делать», и потом — ушёл.

Ты удивился, что это работает?

Да, я не ожидал, что это сработает. У меня есть project data chat: по сути, многие очень удивлялись моей одержимости тренировкой GPT‑2 и т. п., но для меня тренировать GPT‑модели — это просто маленький инструмент, маленькая «песочница» для тренировки LLM. В глубине меня больше интересует идея рекурсивного самоулучшения — насколько далеко можно протолкнуть самоулучшение LLM. Потому что я чувствую, что все frontier‑лабы по сути это и делают по очевидным причинам: они пытаются рекурсивно улучшать себя.
Так что для меня это как мини‑игра. И при этом мне самому нравится по‑старому вручную крутить ручки, подбирать гиперпараметры. Я исследователь, я делаю это двадцать лет — двадцать лет. Я привык: я тренировал модель тысячи раз; я сделал кучу экспериментов; я сделал супер‑базовые твики; я делал все вещи, к которым привык за двадцать лет. Я дошёл до точки, где мне казалось, что всё довольно хорошо настроено. Потом я дал AutoResearch «покрутить» это ночью — он вернулся, и я увидел настройки, которые я сам не заметил.
Да, я реально забыл про weight decay у value embedding и про то, что мой «атомик бета» недонастроен — эти вещи взаимодействуют. Как только ты крутишь одну вещь, другая может измениться. Я не должен быть узким горлышком; я не должен запускать этот гиперпараметрический поиск. Я не должен сидеть и смотреть результаты. Здесь есть объективный критерий. Так что нужно просто организовать это так, чтобы оно могло продолжаться вечно.
Это — единичная версия AutoResearch: один цикл улучшения. Я удивился, что он нашёл это; репозиторий был уже довольно хорошо подстроен, и он всё равно нашёл что-то. А это всего лишь один цикл. А у frontier‑лабов — кластеры из десятков тысяч GPU. Легко представить, как на небольших моделях можно иметь море автоматизации. А в основе фронтир‑интеллекта всё — про экстраполяцию и scaling‑loss: ты исследуешь на маленьких моделях и потом пытаешься переносить выводы.

То есть ты говоришь: наша исследовательская работа станет эффективнее — мы будем лучше выбирать направления при масштабировании, если сможем лучше проводить такие эксперименты.
Да. Я бы сказал: наиболее интересные проекты у frontier‑лабов — это эксперименты на меньших моделях, попытка сделать всё максимально автономным, вытащить исследователей из контура. Их слишком много. И наоборот — что? Слишком уверены. Да, они не знают. Им не следует «трогать» всё это. Нужно переписать весь процесс: да, они могут вносить идеи, но они не должны реализовывать эти идеи. Есть очередь идей. Может быть, есть «автоматизированный учёный», который на основе архивных статей и GitHub‑репозиториев генерирует идеи, агрегирует их; или исследователи могут вносить идеи — но это одна очередь. Есть исполнители, которые вытягивают задачи и пробуют; всё, что сработало, кладётся в feature branch; кто-то может мониторить feature branch; иногда это мерджится в main.
Так что да: убрать людей из всех процессов, максимально автоматизировать, получить максимально высокий токенный throughput в секунду — это требует переосмыслить все абстракции. Всё нужно перетасовать. Да, я думаю, это очень захватывающе.

Если сделать ещё один рекурсивный шаг: когда модели смогут писать program MD лучше, чем ты?

Да, program MD — это…
Нас нет в цикле.
Да, именно.
Так вот, program MD — это моя неуклюжая попытка описать, как должна работать система AutoResearch: типа «сделай это, потом то, попробуй эти идеи», и вот тут какие-то идеи: посмотри на архитектуру, оптимизатор и т. п. Я просто набросал это в markdown, верно?
Да, так и есть. Ты хочешь некий AutoResearch‑цикл; можно представить, что разные версии program MD дают разный прогресс. По сути, каждую исследовательскую организацию можно описать program MD. Да.
Исследовательская организация — это набор Markdown‑файлов, описывающих роли и как всё взаимодействует. Можно представить «лучшую» исследовательскую организацию. Может, они по утрам почти не делают стендапы, потому что они бесполезны. Это просто код, верно? Одна организация может делать меньше стендапов, другая — больше, одна может быть более рискованной, другая — менее. Можно представить, что у тебя есть несколько исследовательских организаций.
А дальше у них у всех есть код. Как только у тебя есть код, ты можешь оптимизировать код. Это на 100% мета‑уровень.
Ты видел мою идею конкурса? Моя идея — чтобы люди писали разные program MD. Тогда на одинаковом железе — где ты получаешь максимум улучшений?
Понял.
И ты можешь собрать все данные, отдать модели — и она напишет лучший program MD.
Да. Да.
Да. Именно.
Мы получим что-то лучшее. Мы не можем не получить.
Ты на 100% можешь искать источники улучшений: я могу менять program MD так, чтобы делать больше таких вещей, или меньше таких, которые не работают.
Мета‑оптимизация. Да.
Так что да, это можно представить. Я думаю, это хорошая идея. Но, знаешь, всё идёт слоями, как луковица: сначала один процесс, потом второй, потом следующий. LLM‑часть уже воспринимается как данность. Агентная часть воспринимается как данность. «Сущности класса Claude» воспринимаются как данность: теперь можно иметь несколько сущностей, давать им инструкции, оптимизировать инструкции. Это, знаешь, немного слишком много, но именно поэтому это затягивает: это бесконечно; всё всё ещё проблемно; и поэтому это так безумно.

Если просто диагностировать текущий момент: какие навыки сейчас релевантны? Что тебе нравится? Ты думаешь, это означает, что мы должны строить такие циклы в разных областях — и это будет работать — типа создать метрику или дать агенту возможность продолжать работать над метрикой без тебя.
Да.
У нас ещё есть что-то вроде performance engineering?
Да. Я бы добавил пару предостережений про экосистему LM. Во‑первых:
это очень хорошо работает для всего, где есть объективная метрика с простой оценкой. Например, написать более эффективный CUDA‑kernel или оптимизировать куски кода модели и т. п. — идеально.
Потому что у тебя есть неэффективный код, и ты хочешь эффективный код с полностью тем же поведением — но быстрее.
Так что многие такие вещи отлично подходят для AutoResearch. Но многое — нет. Если ты не можешь оценивать, ты не можешь AutoResearch’ить это, верно? Это первое предостережение.
А второе предостережение: мы говорим про следующий шаг, мы видим, что следующий шаг есть, но фундаментально вся штука всё ещё… она немного «трещит по швам», есть трещины, и она не работает на 100%. Если пытаться зайти слишком далеко, вся штука становится бесполезной.
Потому что модели всё ещё не… они сильно улучшились, но края всё ещё грубые. Я бы описал это так: у меня ощущение, что я разговариваю одновременно с очень сильным аспирантом, который всю жизнь был системным программистом, и с десятилетним ребёнком. Это странно, потому что у людей такого сочетания почти не бывает.
Эта «зубчатость» очень странная. У людей она гораздо меньше. Хотя да, бывает, но… у агентов много неровностей: иногда я прошу фичу, а он возвращает полностью неправильное; мы попадаем в неправильный цикл; и я очень фрустрируюсь, потому что ты чувствуешь силу, но при этом он иногда делает для меня бессмысленные вещи.
Меня очень раздражает, когда агент тратит кучу вычислений на то, что он должен был распознать как очевидную проблему.

Да, я думаю, кое-что из более «больших» вещей внизу такое: эти модели, насколько я могу предположить, по сути обучаются через RL. И они пытаются решить ровно ту же проблему, о которой мы говорили: лаборатории могут улучшать модель в любом верифицируемом аспекте — там, где есть награда. Например: правильно ли написана программа и проходит ли unit tests? Да/нет. Но то, с чем они мучаются: нюансы. Например, что я имею в виду, каково моё намерение, когда задавать уточняющие вопросы. Всё, что «мягче», становится хуже.
Ты как будто либо на верифицируемых рельсах и являешься частью этой супер‑умной цепочки, либо сходишь с рельс в неверифицируемую зону — и внезапно всё становится извилистым.
Можно сказать иначе: если сегодня вы возьмёте самый передовой ChatGPT и попросите: «Расскажи анекдот», знаете, какой анекдот вы получите? Анекдот.
Я правда чувствую, что ChatGPT знает три анекдота.
Да. Да. И очевидно их любимый: «Почему учёные не доверяют атомам?»
Окей.
«Потому что они всё выдумывают».
Окей.
«Потому что они всё выдумывают». Так вот…
Откуда это взялось?
Это анекдот, который вы слышали 3–4 года назад — и сегодня вы всё ещё его слышите.
Окей.
И при том, что модели колоссально улучшились…
Да.
…если дать им агентную задачу, они будут несколько часов «двигать горы» для тебя.
А спросишь анекдот — и получишь глупый анекдот, плохой анекдот пятилетней давности. Это потому что это вне RL.
Это не в зоне того, что улучшается. Это часть «зубчатости». Нельзя ожидать, что с улучшением моделей у них автоматически будут лучше/разнообразнее шутки — это не оптимизируется, оно застряло.

Ты думаешь, это означает, что мы не видим, как более широкий интеллект (типа «шуткового интеллекта») обобщается из «кодовогo интеллекта»?
Да, думаю, есть некоторая развязка. Есть вещи верифицируемые, есть неверифицируемые. Что-то лаборатории произвольно оптимизируют в зависимости от данных; что-то — нет.
Но предпосылка некоторых групп такая: если ты умнее в генерации кода или в этих верифицируемых областях, ты должен становиться лучше во всём. А пример с анекдотами показывает, что это не происходит во всех случаях.
Я не думаю, что это будет происходить. Да, я не думаю, что это будет происходить. Может, мы видим чуть-чуть, но не в удовлетворяющем количестве.
Такое разделение есть и у людей: ты можешь быть супер‑хорош в математике и всё равно рассказывать очень плохие анекдоты.
Да, верно. Да. Но это всё равно означает: мы не получаем «бесплатно» большой интеллект и способности во всех областях общества просто потому, что модели становятся лучше. Фундаментально это не совсем то, что происходит. Есть слепые зоны, есть вещи, которые не оптимизируются. Всё это собрано в этих непрозрачных нейросетевых моделях, верно? Ты либо идёшь по рельсам того, чему они обучены — и всё летит со скоростью света, — либо нет. Так что это «зубчатое».
Поэтому я думаю: даже если прогресс очевиден и вроде бы ясно, что должно быть, ты не можешь заставить это полностью реализоваться — потому что оно не полностью работает; или это вопрос навыка, и мы просто ещё не поняли, как использовать. Трудно сказать.
Можно задать «еретический» вопрос? Эта зубчатость — она будет сохраняться и всё это будет сидеть в одном интерфейсе одного «общего» модели? Или имеет смысл разложить это на вещи, которые можно оптимизировать и улучшать под разные ситуации/области интеллекта — то есть несколько экспертов по разным доменам — чтобы было менее confusing: почему он так хорош здесь, но не там?

Да, сейчас у меня ощущение, что лаборатории пытаются построить одну единую «моно-культурную» модель, которая имеет произвольный интеллект во всех этих областях, и они просто запихивают это в параметры. Но я думаю, нам стоит ожидать больше «видообразования» в агентах. В животном мире мозги крайне разнообразны, есть куча ниш, у кого-то гиперразвит зрительный кортекс и т. п. Думаю, мы должны увидеть больше видообразования: тебе не нужен всеведущий оракул. Ты делаешь что-то конкретное и ставишь это на конкретную задачу. Мы должны это увидеть, потому что можно иметь меньшие модели, у которых всё равно есть когнитивное ядро, способности, но они специализированы, и они могут быть более эффективны по latency/throughput в конкретных задачах, которые тебе важны. Типа «бережливый» математик.
Например, я видел версии, которые ориентируются на доменные цели. Так что могут быть примеры, где разбиение имеет смысл.
Мой вопрос: ограничена ли доступная вычислительная инфраструктура? Потому что эффективность важнее. Если отложить финансирование — хотя финансирование во всём этом участвует — если бы ты мог дать сколько угодно вычислений на всё, что делаешь, даже на одну модель, но если ты реально чувствуешь давление «я не могу обслуживать большие модели для каждого кейса», приведёт ли это к видообразованию? Этот вопрос имеет смысл?
Вопрос имеет смысл. Просто я… я… с чем я борюсь: мы пока не увидели много видообразования, верно?
Нет.
Мы видели монокультуру моделей.
Да.
И, очевидно, есть давление сделать хороший кодовый модель и потом влить это обратно в основной «мердж».
Да. Да. Хотя на модели есть давление…
Наверное, мне кажется, есть много очень краткосрочных «сжатий по поставке» (supply crunch), которые могут сейчас толкать к большему видообразованию.
Да. Да. Я думаю, в основе лаборатории обслуживают модели, но они не знают, что спросит конечный пользователь. Возможно, это часть причины: им нужно уметь отвечать на всё. Но если ты приходишь в энтерпрайз и вы вместе делаете что-то под конкретные вопросы, то, возможно, это там и будет. Или появятся приложения с очень высокой ценностью, более нишевые. Но сейчас они как бы пытаются покрыть «всё». Я не думаю, что наука «манипулирования мозгом» полностью развита — она частично развита.
Что ты имеешь в виду под «манипулированием»?
Например, fine-tuning без потери функций. У нас нет этих примитивов. Или использование интеллекта вне контекстного окна — контекстное окно просто работает, и оно дёшево. Это способ получать кастомизацию. Но «трогать веса» — это гораздо сложнее, чем просто «трогать контекстное окно». Потому что ты фундаментально меняешь модель и её скрытый интеллект. Так что, возможно, это ещё не полностью зрелая наука. И видообразование… И это должно быть достаточно дёшево, чтобы вид был ценен в данном контексте.

Можно спросить про масштабирование AutoResearch, которое ты описывал в открытом контексте? Ты сказал: нам нужно больше поверхностей для кооперации вокруг этого, чтобы люди могли вносить вклад в общий ресёрч. Можешь рассказать?
Да. Мы обсуждали, что у нас ресёрч — это один «тред»: я в цикле и пробую что-то. Но распараллеливание — интересная часть. Я хочу пробовать идеи, но пока у меня нет чего-то, чем я был бы очень доволен. Это то, чем я люблю «пинать» свою систему фоновых агентов, когда не работаю.
Один вопрос: если у тебя есть куча параллельных вычислительных узлов, легко сделать так, чтобы несколько AutoResearch‑исполнителей общались через общий системный слой. Но меня больше интересует: как иметь в интернете пул недоверенных исполнителей.
Например, в AutoResearch ты хочешь найти кусок кода, который тренирует модель до очень низкого validation loss. Если кто-то даёт candidate‑коммит, проверить, что коммит правильный и хороший, относительно легко. Кто-то из интернета может заявить, что этот код лучше оптимизирует и даст лучшую производительность. Проверить можно просто — но может понадобиться много работы, чтобы проверить. И, по сути, они могут врать и т. п.
Это похоже на дизайн с пулом недоверенных воркеров — и это немного похоже на блокчейн. Только вместо блоков — коммиты; и эти коммиты могут строиться друг на друге, содержать изменения, которые улучшают код. «Доказательство работы» — это сделать много экспериментов, чтобы найти рабочий коммит. Это тяжело. Награда — сейчас место в лидерборде. Денежной награды нет. Я не хочу слишком тянуть аналогию, но фундаментальная проблема такая: поиск дорогой, а верификация кандидата дёшева, потому что можно просто натренировать и проверить. Кто-то должен попробовать 10 000 идей, а тебе нужно проверить только то, что они в итоге принесли — потому что 9 900 не сработали.
В общем: нужно придумать систему, где пул недоверенных исполнителей сотрудничает с доверенным пулом, который делает верификацию; всё асинхронно и работает. И с точки зрения безопасности: если кто-то присылает произвольный код, а ты запускаешь — это очень скользко и опасно. Но в принципе это возможно.
Ты знаком с проектами SETI@home, Folding@home — там похожие свойства. В Folding@home трудно найти низкоэнергетическую конфигурацию белка. Но если кто-то нашёл, как ему кажется, идеальную низкоэнергетическую конфигурацию, ты можешь легко проверить и использовать. Многие вещи так устроены: предложить решение дорого, проверить — дешево. Поэтому в таких случаях Folding@home, SETI@home или AutoResearch@home — подходит.
Короче: толпа агентов в интернете могла бы совместно улучшать LLM — возможно, даже «оббегать круги» вокруг frontier‑лабов. Кто знает. Frontier‑лабы имеют много доверенного compute, но Земля гораздо больше и имеет много недоверенного compute. Если построить проверяющую систему, которая справится, возможно, толпа придумает более хорошие решения — и люди будут отдавать циклы под то, что им важно.
И последняя мысль: у многих компаний есть то, что им важно, и если у тебя есть compute, ты можешь вносить вклад в разные AutoResearch‑проекты: например, тебе важен рак или что-то такое. Ты не просто донатишь организации, которая покупает вычисления, — ты можешь присоединиться к AutoResearch‑форуму конкретного проекта. Если всё перепаковать в «других исследователей», то compute становится тем, что ты приносишь в общий пул.

Да, это очень вдохновляет. И интересно: не знаю, насколько это разовьётся, но забавно, что есть аудитория — в Силиконовой долине и вообще — и в Китае в розничных магазинах выяснили, что персональные компьютеры снова стали интересны.
Да.
Верно. Может, у людей будет мотивация поднимать такие фоновые агенты для себя — и тогда они смогут вносить вклад в AutoResearch.

Это почти как: доллар — то, что волнует всех, но FLOPs — это будущее, что будет волновать всех? Типа то, что тебя волнует, радикально изменится? Потому что сейчас даже если у тебя есть деньги, трудно получить compute.
Да.
Так что в каком-то смысле FLOPs становятся доминирующим ресурсом. Да. Может, это как «сколько FLOPs ты контролируешь», а не «сколько богатства»? Я не думаю, что это правда, но думать интересно.

Последнее, что ты публиковал, было вроде анализа данных по занятости. Так? Даже если ты просто визуализировал публичные данные — что тебя зацепило? Что тебя заинтересовало?

Да, мне было любопытно: все думают о влиянии ИИ на рынок труда и о том, каким он будет. Я просто хотел посмотреть: как выглядит рынок труда? Где разные роли? Сколько людей в разных профессиях? Мне интересно смотреть отдельные случаи и пытаться думать о своих взглядах на ИИ и о том, как он может развиваться: это будут инструменты, которыми люди пользуются? Это будут инструменты, которые заменят эти профессии? Каковы текущие профессии, как они изменятся? Они вырастут или трансформируются? Какие могут быть новые профессии? То есть это способ запустить у себя цепочку размышлений об индустрии.
Так что да: данные по занятости — это данные Бюро статистики труда (BLS). Они делают прогнозы по каждой профессии: сколько, по их оценке, это вырастет в ближайшие годы.
Да, думаю, это примерно на десять лет вперёд; сделано в 2024.
Нам нужно много медработников.
Да. Они сделали эти прогнозы; я не на 100% уверен, какой у них метод.
Если люди думают, что сейчас в основном развивается «цифровой ИИ» — эти призраки или духовные сущности, которые взаимодействуют в цифровом мире и могут манипулировать цифровой информацией, — но у них пока нет настоящего физического воплощения, то физические вещи могут идти чуть медленнее, потому что ты манипулируешь атомами. Переворачивать биты и копировать‑вставлять цифровую информацию — это ускоряет всё примерно в миллион раз по сравнению с материей.
Так что я думаю, мы увидим много активности в цифровом пространстве: много переписывания, много «кипения». И вещи в цифровом пространстве будут происходить со скоростью света по сравнению с тем, что будет происходить в физическом мире (если экстраполировать). Сейчас есть подвешенность: возможно, будет много болезненного — много обработки цифровой информации, которую раньше делали компьютеры и люди, а теперь ИИ — как третий манипулятор цифровой информации. В этих областях будет много перестроек. А физический мир какое-то время останется таким, как есть.
Меня особенно цепляют профессии, которые фундаментально манипулируют цифровой информацией. Это те работы, которые можно делать из дома — и я чувствую, что они будут меняться. Это не значит, что их станет меньше или больше (это зависит от эластичности спроса и прочего), но содержание профессий изменится из‑за новых инструментов — апгрейда «нервной системы человеческого суперорганизма», если так думать.

С учётом данных: какие наблюдения или советы для людей, которые смотрят на рынок труда, думают, что учить, какие навыки развивать?

Честно, это очень трудно сказать: рынок труда чрезвычайно разнообразен, ответы будут разными. Но в целом — эти инструменты очень новые и очень мощные. Первое — стараться не отставать. Потому что многие люди пытаются игнорировать это…
или боятся этого…
или боятся, да, что вполне понятно. Сейчас это в основном инструмент усиления. Работа — это набор задач; часть задач можно делать быстрее. Людям стоит воспринимать это как главный инструмент. Долгосрочное будущее — неопределённо. Прогнозировать очень трудно; я не профи, это работа экономистов.
Но ты инженер. Интересно, что спрос на инженерную работу продолжает расти.
Да.
Я не знаю, временно ли это. Я не уверен, что чувствую.
Да. Это как: спрос на софт почти ненасыщаем, верно? Причина, почему у нас не ещё больше спроса на софт, — его дефицит и высокая цена.
Слишком дорого. Да.
Если барьер снизится, получишь парадокс Джевонса: софт станет дешевле — и спрос фактически вырастет.
Дешевле и мощнее. Да. Типичный пример — банкоматы и банковские кассиры. Многие боялись, что банкоматы заменят кассиров, но в итоге банкам стало дешевле держать отделения, отделений стало больше, и кассиров стало больше. Это парадокс: что-то становится дешевле — раскрывается скрытый спрос.
Так что я осторожно оптимистичен с точки зрения софтверной инженерии: мне кажется, спрос на софт будет огромным, а софт станет дешевле. В довольно длинной перспективе прогнозировать трудно, но локально мне кажется, что спрос будет больше. Потому что софт потрясающий — обработка цифровой информации. Ты не должен быть вынужден пользоваться произвольными инструментами, которые тебе дали, когда они во всём несовершенны; ты не должен быть вынужден подписываться на существующий код. Код теперь эфемерен: он может меняться, модифицироваться. Так что в цифровом пространстве будет много активности, «переподключения» всего. Это создаст огромный спрос.
В долгосрочной перспективе, да: даже AutoResearch — такие лаборатории, как OpenAI, Anthropic, нанимают примерно тысячу исследователей…
и эти исследователи как «славные водители», которые активно автоматизируют сами себя — это то, что они все пытаются делать.
Да.
Я много хожу и смотрю по сторонам: часть исследователей тоже чувствует эту эйфорию, да? Потому что можно заставить это работать.
Да.
Верно. Они такие: «О, я тоже закончил».
Я часто думаю: вы понимаете, что если мы преуспеем, мы все безработные? Мы просто строим автоматизацию для Сэма или кого-то. Или для совета директоров, или CEO — не знаю — мы строим автоматизацию для тех, кто у руля, и мы все безработные. Это немного нервирует.

Можно спросить тебя «вопрос Нума»? Типа: ты можешь делать правильные вещи, имея много compute и группу коллег в frontier‑лабе — почему бы не…?

Ну, я там был какое-то время, потом вышел, потом опять немного вошёл. В каком-то смысле я согласен: есть много путей. Это тяжёлый вопрос. Я бы сказал: я очень доволен тем, какое влияние можно иметь за пределами frontier‑лабов — не обязательно «в индустрии», а в ролях на уровне экосистемы. Твоя роль — более экосистемная. Моя текущая роль тоже более экосистемная. Я доволен тем влиянием, которое можно там иметь.
Но у меня есть внутренние вопросы, потому что я во многом всё ещё «слишком выровнен» с frontier‑лабами. У них огромные экономические стимулы, и ты сам признаёшь, что ИИ драматически изменит человечество и общество. И ты как бы строишь технологию и выигрываешь от этого — финансово с этим совмещён. Это центральная дилемма, с которой начинался OpenAI — то, что они пытались решать.
И это всё ещё не полностью решено. Во‑первых, ты не полностью свободный агент: в frontier‑лабе есть вещи, которые ты не можешь сказать. Организация хочет, чтобы ты говорил определённые вещи; тебя не будут прямо выкручивать, но ты чувствуешь давление: «что надо говорить», иначе — странные взгляды, неловкие разговоры. Ты не можешь быть независимым агентом. А снаружи, в каком-то смысле, ты больше выровнен с людьми, потому что почти не чувствуешь этого давления.
Да, конечно, внутри frontier‑лаба ты тоже можешь иметь влияние — там много исследователей, у кого хорошие идеи, и много решений, где хочется быть в комнате, когда идут разговоры. Сейчас риск, кажется, относительно низкий, всё окей. Но в конце дня, когда ставки высоки: если ты сотрудник организации, я не знаю, насколько много у тебя влияния. В конце дня ты не «ответственный» — ты в комнате, вносишь идеи, но ты не «рулишь» сущностью. Это источник дисфункций.
С другой стороны, если лаборатории — непрозрачны (хорошо это или плохо), они на краю возможностей и делают работу про «что будет дальше». Если ты вне frontier‑лаба, твой «здравый смысл» начинает дрейфовать, потому что ты не внутри и не знаешь, что реально происходит. Я чувствую, что мой собственный judgement неизбежно начнёт дрейфовать: я не буду понимать, как системы реально работают за кулисами, как всё будет развиваться. С этого смысла я согласен — и это меня тревожит.
Я думаю, в целом это стоит того. Но было бы здорово иметь сетап, где какие-то frontier‑лабы приглашали бы тебя на время, чтобы ты делал реальную работу, и потом возвращался бы наружу. Это было бы очень волнительно. Это способ быть связанным с реальностью frontier’а, но не чувствовать, что тебя полностью контролируют эти сущности.
Так что, честно, я думаю: человек вроде Нума мог бы отлично работать в OpenAI, но самое влиятельное, что он сделает, вероятно, будет вне OpenAI.
Ну, это призыв к независимому ресёрчу через AutoResearch.
Да. Внешне ещё куча работы. И, думаю, идеальное решение — это ходить туда‑сюда. В обоих местах можно иметь невероятное влияние. Сложно. Я был в frontier‑лабе, сейчас снаружи, и, возможно, в будущем захочу снова зайти — примерно так я это вижу.

Один вопрос про видимость frontier’а для мира и экосистемы: как близко опенсорс к frontier’у и насколько это устойчиво?

Да, я думаю, последовательность событий удивительная: появились некоторые китайские модели и глобальные модели; в краткосрочной перспективе люди продолжат публиковать — и с точки зрения возможностей эти модели ближе, чем ожидала большая часть индустрии.
Ты удивлён? Ты давний контрибьютор опенсорса. Каков твой прогноз?
Да. В грубом приближении: закрытые модели лидируют, но люди измеряют, на сколько месяцев отстаёт опенсорс. Сначала было «ничего», потом 18 месяцев, сейчас это сходится. Может, отстают на 8–6 месяцев — что-то такое.
Я, очевидно, большой фанат опенсорса. В ОС: Windows и Mac OS — закрытые, большие проекты, и LM будут развиваться похоже. Но есть Linux — он крайне успешен, работает на огромной доле компьютеров; в последний раз, как я видел, это было 60% или около того. Потому что индустрии нужен общий открытый фундамент, который все считают безопасным. Потребность в таком проекте всегда была. Думаю, сейчас тоже. Это то, что бизнес реально хочет.
Главное отличие: всё это требует капитала — большие капитальные затраты. Поэтому конкурировать трудно. Но текущие опенсорс‑модели очень хороши. Для большинства потребительских кейсов даже «опенсорс‑модель» уже вполне хороша. Если продолжить, похоже, что масса простых кейсов будет отлично покрыта — даже локально.
Но всегда будет спрос на frontier‑интеллект — и это, возможно, значительная часть «пирога». Frontier‑интеллект нужен для задач уровня Нобелевской премии или «переписать Linux с C на Rust», или для ещё больших проектов. И, возможно, именно там закрытый фронтир будет взаимодействовать с миром, а опенсорс «съест» более базовые кейсы.
В какой-то момент сегодняшний фронтир — то, чем я пользуюсь в закрытых лабораториях, — станет опенсорсом, возможно, уже позже в этом году. Это потребует работы. Так что я ожидаю, что динамика продолжится: у нас будут закрытые frontier‑лабы с «оракулами», а через несколько месяцев будет что-то опенсорсное. В целом, мне кажется, это неплохой сетап.
Потому что я сомневаюсь: я не думаю, что структурно безопасно иметь только закрытый интеллект. Централизация исторически имеет очень плохой трек‑рекорд.
Ты про политические/экономические системы?
Да.
Именно. Было много очень плохих президентов. Я хочу, чтобы была «публичная рабочая область» интеллекта — не на самом краю возможностей, но доступная всей индустрии. Баланс сил кажется неплохим.
Да, но есть много проблем: если постоянно двигать frontier‑интеллект, можно делать новые вещи, и человечество столкнётся с большими проблемами. И это дорогая игра. Я хочу поддерживать лаборатории, которые этим занимаются: если не продолжать дорого продвигать модели, мы не решим некоторые задачи.
Но, как ты сказал: даже если бы сегодняшний frontier был открытым — это уже огромная мощность. Так что демократизация силы выглядит полезной и здоровой.
Да. Думаю, почти случайно мы сейчас в неплохой позиции — почти оптимальной. Мы как будто оказались в выгодной точке.
Чем дольше такая динамика длится, тем здоровее экосистема: площадь под кривой растёт.
При этом даже на «близкой стороне» мне кажется, недавно произошла дополнительная концентрация, потому что лидеров стало меньше. Это не идеально. Я хочу больше «фронт‑ту‑бэк», больше людей в комнате. В ML ансамбли обычно побеждают одиночные модели; я хочу, чтобы группа людей думала над самыми трудными вопросами. Я не хочу будущее с дверью, закрытой двумя-тремя людьми. Я хочу больше лабораторий.
Короче: у опенсорса есть роль. Я надеюсь, он выстоит. Сейчас он немного отстаёт — и это, вообще-то, хорошо.

Окей. Ты пионер автономных технологий для автомобилей и универсальной робототехники, верно? В последние месяцы в роботокомпаниях много происходит: ускорение обобщения в задачных средах, рост долгосрочных задач, много денег. «Оно случится»? Твоя точка зрения изменилась?

Моя точка зрения основана на том, что я видел в автономном вождении: я считаю, что автономное вождение — первое роботоприложение. Десять лет назад было много стартапов, и большинство не добилось долгосрочного успеха. Нужны огромные капитальные затраты и много времени. Думаю, с робототехникой так же: это очень сложно и грязно, требует много капитала и веры. Проекты тяжёлые.
Поэтому я думаю, она будет отставать: в цифровом пространстве будет гораздо больше изменений — там эффективность может вырасти в 100 раз, потому что биты очень лёгкие. Так что, где будут изменения и активность — у меня ощущение, что в цифровом пространстве будет огромная перестройка, а физическое будет позади.
Мне очень интересен интерфейс между ними: если у нас больше агентов, действующих от имени людей; агенты разговаривают друг с другом, исполняют задачи, участвуют в агентной экономике — это всё чисто цифровое. Но в какой-то момент нужно идти во Вселенную и задавать ей вопрос: сделать эксперимент, посмотреть, что она скажет, и вернуться с новым знанием.
Сейчас у нас огромное количество цифровой работы, потому что у нас есть «долг» по осмыслению того, что уже оцифровано. У людей не хватает мыслительных циклов, чтобы осмыслить всё, что уже загружено. Поэтому мы начнём «выедать» то, что уже есть. В какой-то момент ты прочитаешь все статьи, обработаешь, получишь идеи — но ты всё равно ограничен тем, что доступно.
Дальше, думаю, всё сместится к интерфейсу физического и цифрового: сенсоры видят мир, актуаторы делают что-то с миром. Многие интересные компании будут в этом интерфейсе: можем ли мы, в каком-то смысле, поставлять супер‑интеллекту данные? Можем ли мы по запросу доставать данные и манипулировать физическим миром? Рынок и объём работы там огромны — возможно, даже больше, чем в цифровом. Это большая возможность, но и гигантский объём работы: атомы «жёстче» в миллион раз. Так что оно отстанет, но когда придёт — будет огромным.

Это интересная рамка, потому что некоторые вещи в мире атомов проще: чтение/запись физического мира — например через камеры — уже есть железо. Можно представить, как обогащать агентные возможности или собирать новые данные, не вкладывая гигантские деньги — если ты достаточно умён — и получать ценность.
Да. Я вижу примеры: мой друг Лиам (Liam) — CEO компании, я был у них на прошлой неделе — они пытаются сделать AutoResearch для материаловедения. Там «умные сенсоры» — это дорогие лабораторные устройства. В биологии тоже. Многие интересуются инженерной биологией, и сенсоры — это не только камеры.
И ещё: компании пытаются платить людям за тренировочные данные — например, «кормить» модели программно. Да, кормить борга. В каком-то смысле это тоже примеры «сенсоров». Они бывают разных форм.

Я жду дня, когда смогу попросить задачу в реальном мире, назначить цену, и сказать агенту: «Ты знаешь как. Иди и добудь данные». Я удивлён, что у нас нет достаточного рынка информации.
Например, Polymarket или другие рынки ставок, или даже акции: если там так много автономной активности и она растёт — если сейчас в Иране что-то произошло, почему нет процесса «фото/видео с места стоит 10 долларов»? Кто-то должен иметь возможность платить за это; агентам нужно пытаться угадывать рынки ставок и фондовые рынки и т. п.
Мне кажется, агентные сети ещё очень новые, механизмов нет, но это пример того, что может появиться. Есть хорошая книга, вдохновляющая, «Демон» — возможно, ты её читал (у Дэймона). Интеллект в конце концов — это как кукловодство: люди как актуаторы, но люди как сенсоры. Общество как коллектив, возможно, перестроится, чтобы обслуживать это: будет больше автоматизации, и люди будут удовлетворять потребности машин, но не обязательно друг друга.

Окей, вернёмся к конкретике: нехватка данных для обучения. Нам нужно AutoResearch — механизировать training cycles или SFT‑часть… для каких частей? Чтобы убрать человека из цикла, чтобы можно было сказать: «Улучши качество моей модели» с новыми данными, верно?
Да.
Это имеет смысл? Если ты не можешь заставить модель учиться сама, ты можешь сделать это как замкнутую задачу: назначить цену данным и замкнуть контур.
Да.
Это сложнее.
Да. Да. На 100%. Да. Но сегодня обучение LLM очень хорошо ложится в парадигму.
Чистая метрика.
Да. Тренинг LM отлично подходит: оптимизация кода, чтобы он работал быстрее, и метрики, которые можно оптимизировать. Если у тебя есть автономный цикл по метрикам, система будет переобучаться на эти метрики, будет много «хороших усилий». Но можно использовать систему, чтобы проектировать больше метрик — и будет хорошее покрытие. Трудно сказать, но в каком-то смысле это очень подходит.

Перед тем как заканчивать, хочу поговорить о твоём небольшом проекте. Расскажи про micro GPT.

О, да. Micro GPT. Я уже года два (а то и десять) одержим тем, чтобы упрощать и сводить LLM к их сути. Я сделал много подобных проектов: nanoGPT и прочие. Сейчас, думаю, microGPT — самый продвинутый в этом. Я пытаюсь свести его к сути: тренировка нейросети и LLM — это много кода, но большая часть этого кода — сложность ради эффективности.
Просто потому, что нужно, чтобы это работало быстро. Если не нужно быстро, а важен алгоритм, то это примерно 200 строк Python — очень читабельно, с комментариями и всем. У тебя есть текстовый датасет, около 50 строк архитектуры. Нужен forward pass, потом backward pass, чтобы посчитать градиенты. Маленький autograd‑движок для градиентов — около 100 строк. Нужен оптимизатор, например Adam (очень продвинутый), это ещё около 10 строк. И собрать всё в тренировочный цикл — около 200 строк.
Мне это интересно. Раньше, год назад и больше, если бы я придумал microGPT, я бы хотел объяснять людям: сделать видео, пройтись по нему шаг за шагом, сделать гайд. Я даже пытался сделать видео, мини‑руководство, но понял, что это почти ничего не добавляет, потому что оно уже простое: 200 строк. Любой может попросить своего агента объяснить это разными способами. И я — как человек — больше не объясняю людям. Я объясняю агентам. Если ты можешь объяснить агенту, агент становится роутером и сможет с бесконечным терпением объяснять людям на их языке.
Верно. Если я не понимаю конкретную функцию, я могу попросить агента объяснить тремя способами — и я не получу это от тебя.
Именно.
Так что я думаю: что такое образование? Раньше — гайды, лекции, вот это. Сейчас больше похоже на то, что я объясняю агентам, а навыки — это способ направлять агента, как учить. Может, я могу «упаковать» навык по microGPT: если хочешь понять кодовую базу, агент должен провести тебя, это вроде промпта к модели: «начни с этого, потом с того». Я могу написать «куррикулум» как навык.
Так что мне кажется, прямых объяснений «людям» станет меньше, а больше будет: «агент понял? Если агент понял — он объяснит». Мы ещё не полностью там, потому что я всё ещё думаю, что я иногда объясняю лучше, чем агент. Но модели улучшаются так быстро, что это, в каком-то смысле, проигрышная битва. Так что образование будет полностью перетасовано. Это конец взаимного обучения в прежнем виде: если у меня есть кодовая база, раньше я писал документацию для пользователей‑людей, но теперь не надо. Вместо HTML‑доков для людей ты пишешь Markdown‑доки для агентов: если агент понял, он сможет объяснить любые части. Это переадресация через агентов — думаю, мы увидим больше такого.

Посмотрим, смогут ли великие преподаватели выработать интуицию: как по‑другому объяснять вещи агентам.

В конце концов, например, microGPT: я пытался найти агента, чтобы он написал microGPT. Я сказал: «попробуй свести нейросеть к самому простому», но он не смог. microGPT — это как финал моей одержимости. 200 строк. Я очень долго об этом думал. Я был этим одержим. Это решение. Поверьте: проще уже не бывает. В этом моя ценность. Всё остальное — агенты и так поймут.
Он не смог это придумать, но он полностью понимает и почему так устроено. Так что то, что я реально могу привнести — это, возможно, несколько таких частей. А остальная часть — последующее обучение и изложение — может уже быть не моей территорией. Так что и в образовании будет похожий сдвиг: нужно активно «вкладывать» те части, где у тебя сильное суждение о курсе и о лучшем способе объяснить. То, что агент не может — твоя работа сейчас; то, что агент может — он скоро, возможно, будет делать лучше тебя. Так что нужно стратегичнее выбирать, где ты действительно тратишь своё время.

Большое спасибо, Andrej.
Окей.
Подписывайтесь на No Priors в Twitter/X; если хотите видеоверсию — подпишитесь на их YouTube‑канал. Также можно подписаться в Apple Podcasts, Spotify или на любой платформе, где вы слушаете подкасты — так вы каждую неделю будете получать новый выпуск. Можно зайти на no-priors.com и подписаться на рассылку или посмотреть текстовые расшифровки выпусков.