元動画:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
動画リンク:https://www.youtube.com/watch?v=kwSVtQ7dziU
説明:以下は完全な中国語訳の全文を日本語に翻訳したものです。できるだけ原意と構造を保ち、意味のない口癖(um、uh など)は少量のみ削除しています。
「コードを書く」というのは、もはや正確な動詞ですらないですよね? 私はいま、毎日16時間、自分のエージェントに意図を伝えて、物事を“具現化”させているような感じです。
どうすれば、Claude Code や Codex、あるいは何らかのエージェント・フレームワークの単発のセッションを持つだけで終わらせずに済むのか? どうすればもっと増やせるのか? どうすれば適切にそれを実現できるのか? エージェントという部分は、いまや当たり前のものとして扱われています。いまや Claude 的な存在も当たり前で、複数の存在を持てて、指示を与えられて、指示を最適化できる。でもつまり、だからこそハイになるんです。無限みたいなもので、結局は全部スキルの問題だから。
みなさん、こんにちは。No Priors に戻ってきてくれてありがとう。今日は Andrej Karpathy(Andre Karpathy)をお迎えして、コード・エージェント、エンジニアリングとAI研究の未来、より多くの人が研究に貢献する方法、ロボティクスで起きていること、エージェントが現実世界に触れていく予測、そして次の時代の教育など、幅広く話します。ようこそ、アンドレイ。来てくれてありがとう。
ええ、招待してくれてありがとう。
で、この数か月はAIの世界で本当にエキサイティングな数か月でしたね。
ええ、そう言えますね。
オフィスに入ってきたときのことを覚えてます。あなたが何かにロックオンされているみたいで、何してるの?と聞いたら、「毎日16時間コードを書かなきゃいけない。もう“コードを書く”って動詞は正しくないけどね。だけど自分のエージェントに意図を伝え続けなきゃいけない」って。能力が跳ねたのが明らかだった。
何が起きたの? あなたの体験を教えて。
うん。自分はずっと“AIでハイ”な状態にいる気がします。昔からそうだけど。人間って、とてつもないことができますよね。ボトルネックはタイピング速度とかだった。でもいまはエージェントがあって。12月に、状況がひっくり返りました。自分でコードを書く8020から、エージェントに委任する2080へ……じゃなくて、むしろその逆だったんです。いまは“2080”ですらないと思う。もっと極端です。12月以降、自分で1行もコードを入力してないと思います。これはすごく大きな変化です。彼らと会話している。親と話すみたいに、これについて話してる。普通の人が、これが起きたこととか、その劇的さを理解してるとは思えない。たとえば適当なソフトウェアエンジニアのデスクに行っても、彼らがやっているのは「従来のデフォルトのワークフロー」のままに見える。でも12月以降、ソフトウェアの作り方は完全に別物になった。だから自分は、可能性を探って限界まで押し広げようとして、この“ハイ”な状態にいる。どうすれば、Claude Code や Codex、あるいは何らかのエージェント・フレームワークの単発のセッションだけで終わらないで済む? どうやってもっと持つ? どうやってきちんとやる? じゃあバックグラウンドのエージェントはどう使う? バックグラウンドのエージェントって何?
新しいものがたくさんあります。最前線にいたいけど、不安なんです。自分が最前線にいない気がするから。Twitterでいろんな人がいろんなことをやっていて、どれもすごく良さそうに見える。最前線にいなきゃ、とても焦る。だから自分は、この根本的に未踏の“可能性のハイ”状態にいるんだと思います。
まあ、あなたが焦ってるなら、他のみんなも焦るよね。うちが一緒にやってるチームがいるんだけど、彼らのセットアップは「エンジニアが手でコードを書くことはない。みんなマイクを付けて、ずっとエージェントに囁いてる」っていう信念なんだ。史上いちばん奇妙な職場環境で、最初は彼らが狂ってると思った。でも今は完全に「なるほど、こういうことか」って受け入れてる。まさに最前線だよね。
いま、探索とかプロジェクトの能力って、何に制限されてると思う?
うん。何に制限されてるか? ただ、ほとんどのことがそうだけど、うまくいかないときでも「能力がない」というより、「スキルの問題」だと感じるんです。能力がないんじゃなくて、手元にあるものの組み合わせ方をまだ見つけてないだけ。たとえば agent/MD ファイルとかに十分良い指示を書けてないとか、十分良いメモリツールにつないでないとか。だからシステムが期待通りに動かないときは、「自分の使い方がまだ下手なのでは? 並列化が足りないのでは?」というリマインダーに近い。要するにピーター・スタインバーグになりたい。ピーターは有名で、面白い写真がある。モニターの前に立っていて、Codex を使ってる画面がいっぱい並んでる。Codex のエージェントは、正しくプロンプトして相当頑張れば、だいたい20分くらいで仕事する。だから20分かかる。彼は複数の、たとえば10個のリポジトリをチェックアウトしておいて、その間を歩き回って仕事を投げる。すると、より大きな“マクロな行動”ができるようになる。単なる1行ではなく、新しい関数でもなく、「新機能」だ。これをエージェント1に委譲する。ほかの機能と干渉しない新機能。2分待って、どれくらいそのコードを気にするかに応じて、可能な限りレビューする。自分のソフトウェアリポジトリに対して、どんなマクロ操作ができるのか?
別のエージェントは研究っぽいことをして、別のエージェントはコードを書き、別のエージェントは新しい実装計画を提案する。すべてがリポジトリ上でのマクロ操作になっていく。それが筋肉記憶みたいに身につくまで、めちゃくちゃ上手くなりたい。とても価値がある。まず本当に効く。でも同時に、新しく学ぶべきものでもある。だからハイになる。自分の直感としては、エージェントが何かを終えるのを待っている間に思うのは、「もっと仕事を増やせるよな?」ということ。トークンをもっと使えるなら、追加タスクを麻痺するほど投げるべきだ、みたいな。だからすごくプレッシャーがある。トークンに対する自分の能力が強く制限されていないと感じるなら、システムの最大ボトルネックは自分だってことになる。
ええ。少なくともサブスクを最大化してない。理想的には複数エージェントで。たとえば Codex のクォータを使い切ったら、Claude に切り替えるとか、そういう。自分はそれをずっと試してる。サブスク枠が残ってると緊張する。つまりトークン吞吐量を最大化できてないということだから。これは博士課程の頃も同じ感覚がありました。GPUが回ってないと緊張する。GPU能力があるのに FLOPs を最大化してない、みたいな。でも今はFLOPsじゃなくてトークン。トークン吞吐量がどれくらいか、指示のトークン吞吐量がどれくらいか。面白いのは、少なくとも10年くらい前から、いろんなエンジニアリング作業で人々は計算制約を感じてなかったってこと。
ええ、業界全体が今は資源制約を感じてる。
能力が跳ねたから、「あ、計算にアクセスできる能力じゃなくて、自分が拘束条件だ」となる。
ええ、スキル問題。
それがすごく強力。上達すれば解放されるから。だから中毒性がある。
これ、どこに向かうと思う? つまり、Andre が反復していて、他の人も毎日16時間コードエージェントを使ってるとして、1年後に“熟達した”状態ってどんな感じになる?
年末、あるいは2年、3年、5年、10年後は?
うーん。みんな基本的に“スタックを上に上げる”ことに興味がある。単発のエージェントとのやり取りじゃない。複数エージェントがどう協力し、どうチームになるか。みんなそれがどんな形かを探ってる。あとバックグラウンド・エージェントも面白い方向性。バックグラウンド・エージェントというのは、永続性をまったく別次元に引き上げる層のこと。常にループしていて、あなたが対話に参加する必要がない。小さなサンドボックスを持って、あなたの代わりに動く。あなたが何もしていなくても。さらに複雑なメモリシステムなどもあり得るけど、まだエージェントには実装されていない。だから常駐バックグラウンド・エージェントは、デフォルトのエージェントより複雑なメモリを持つべきだと思う。文脈が尽きたときの要約圧縮だけじゃなくて。そう、正しい。
あなたは、常駐バックグラウンド・エージェントに対して、より広いツールアクセスのほうが、より多くのユーザーに響くと思う?
うん。そこは、少なくとも自分としては、すごく良いアイデアがたくさんあると思う。そう、よくやったピーター。
ピーターは本当にすごい。最近会って話したけど、本人はすごく謙虚。でも彼は5つくらいの異なる方法で同時に革新して、それを組み合わせてると思う。たとえば SOUL と MD ファイル。実際に魅力的で面白い人格を形作っていて、今の多くのエージェントはそこを正しく理解できてない気がする。Claude は人格が良いと思う。チームメイトみたいに感じる。
興奮してくれたりね。Codex はもっと乾いてる。面白いのは、ChatGPT はもっと楽観的で、あなたに合わせやすい。でも Codex のコーディングエージェントはすごく乾いてる。あなたが作ってるものに関心がない感じ。「実装しました」みたいな。「いや、何を作ってるか分かってる?」ってなる。
それは本当。
もう一つは、Claude は“ハイ”問題をうまく解いてると思う。Claude に褒められると、ちょっと自分がそれに値した気分になる。
たまに自分が未熟なアイデアを投げることがある。まだ練れてないアイデア。でも強く否定はしない。「あ、そうですね、実装できます」みたいに返す。でも自分の中で「これはすごく良いアイデアだ」と思うとき、より大きい反応が返ってくるように感じる。だから褒め言葉を“勝ち取りたい”と思ってしまう。すごく変だ。
だから人格は重要だと思う。他のツールはそこまで評価しないかもしれないけど、ピーターはそこもすごく気にしてる。さらにメモリシステム。それに彼はそれに強い興味がある。そして、すべての自動化へ向かう単一の WhatsApp ポータル。
ソフトウェアエンジニアリング以外で、手を動かして面白かったことはある?
うん。1月にバックグラウンド・エージェントを持っていて、バックグラウンド・エージェントにハマる時期があった。家の面倒を見てくれるバックグラウンド・エージェントを作って、家事妖精 Dobby と呼んだ。エージェントに頼んで、LAN上にある家のスマートホームのサブシステムを全部見つけさせたんだけど、驚いたことにほぼそのまま動いた。たとえば家に Sonos がある。「探せる?」って言うと、LAN上の基本的なコンピュータをIPスキャンするみたいにやって、Sonos システムを見つけた。しかもパスワード保護とかが無かった。ログインして、「そう、Sonos が入ってるね。どう動いてるかリバースエンジニアリングしてみる」と。Web検索して API エンドポイントを見つけて、「試します?」って。自分は「やって」と言った。
「書斎で何か再生できる?」って言ったら、本当に音楽が鳴った。「信じられない……」ってなった。3つのプロンプトくらい。
「Sonos を見つけられる?」と入力したら、急に音楽を流し始めた。同じことを照明でもやった。基本的に“ハックされた”みたいに全部を解明して、APIを作り、ダッシュボードを作って、家中の照明がコマンドセンターに見えるようにした。オンオフできる。だから眠いときに Dobby に聞ける。「眠い」って言うと全部の照明が消える、とか。HVAC、カーテン、プールとスパ、安全システムまで制御する。外を向いたカメラがあって、誰かが来たらビジョンモデルで動画を見る。まず変化検知がある。
変化を検知したら、フレームをビジョンモデルで解析して、WhatsApp でメッセージが来る。玄関外の写真が添付されて、「さっき FedEx の車が来たよ。たぶん荷物があるから見たほうがいい」みたいに言う。Dobby が直接SMSしてくる。これは本当にあり得ないし、めちゃくちゃクール。今、Dobby が家のこれらを基本的に担当していて、自分は WhatsApp で会話する。家全体を維持するマクロ操作を持つ体験は本当に面白い。まだもっと狂ったレベルまで押し広げてはいない。既にもっとぶっ飛んだ遊び方をしてる人もいる。でも家庭自動化だけでも自分にとっては十分有用。以前は6つの全然違うアプリを同時に使ってたのに、もう要らない。Dobby は自然言語で全部を制御できる。本当にすごい。だからこのパラダイムを極限まで押してないのに、もう十分役に立つし、十分刺激的。
これは、人々がソフトウェアUXに本当に求めているものを示していると思う? よく見落とされる点として、人間は新しいソフトを学び、新しいUIに適応するために努力が必要。
ええ、ある程度同意します。これは、ある意味で人々の中にあるAI像に合わせてシステムを設計している、という逆向きの話でもある。多くの人の頭の中でAIは、元来の意味でのLLMではない。LLMは本質的にはトークン生成器で、ただトークンを吐き続けるだけ。でも人が本当にAIだと思っているのは、人格やアイデンティティを持つ存在に近い。話しかけられて、覚えていて、WhatsAppの裏にいる“実体”みたいな。そう捉えるほうが自然。
だからある意味、これは人間の「AIはこう振る舞うはず」という既存の期待に合わせている。実現のために裏で大量の技術詳細を詰め込む必要があるけど、多くの人にとって LLM というプリミティブはまだ粗すぎる。厳密には、彼らが思うAIっぽさにまだ届いてない。
ええ、AIをどう理解するかの話でもある。Dobby と呼んだり人格を与えたりしたほうが共鳴しやすい。同時に、6つの別々の家庭自動化ソフトを統合したというのは、別の問いも示している。
人は本当に、今日のような分断された大量のソフトを必要としているのか?
ええ。
そう。ある意味、ハードウェアは残して、ソフトウェア、少なくともソフトウェアのUX層を捨ててしまった。人が本当に欲しいのはそれだと思う?
ええ。アプリストアにある、これらのスマートホーム機器を使うためのアプリ。ある意味、こういうアプリは存在すべきではないのかもしれない。APIだけ公開されて、エージェントが直接使うべきでは? 単体アプリではうまくできない家庭自動化を、いろいろできるし、LLMがツールを駆動して適切なツールを呼び出して、かなり複雑なことをできる。
だから、存在すべきでないカスタムアプリの過剰生産がある、という指摘になる。エージェントがそれらを粉砕して、すべてはAPIエンドポイントとして露出し、エージェントが知的な接着剤としてツール呼び出しで部品をつなぐ。もう一例は自分のランニングマシン。ランニングマシン用アプリがあって、有酸素運動をどれくらいやってるか追跡したい。でもWeb UIにログインしてフローを踏むとかしたくない。全部APIが使えるようになっていればいい。これがエージェント型Web、エージェント優先ツールへの道だと思う。だから業界は、多くの面で再構成が必要になる。顧客が人間ではなくなる。人間の代わりに行動するエージェントが顧客になる。この再編は大きいかもしれない。ここで反論として「人々にこういうツールのコーディングをさせたいのか? 普通の人に、あなたが説明したようなことを期待するのか?」というのがある。
でもある意味、これは今ある技術の話で、いまは vibe coding があって、自分はそれを見てるし使ってる。でも自分が話してるようなものは、1〜3年以内に無料でできるべきだと思う。バックエンドのコーディングは不要。取るに足らない。参加資格みたいなもの。どんなAIでも、オープンソースモデルでもできるはず。
技術度の低い人間の意図を、この形に翻訳するのはとても簡単であるべき。
ええ。今日は vibe coding が絡むけど、そこまで多くの人はやらない。でも。
それでも設計判断は必要ですよね? たとえばフレームワークの例。
ええ。
ええ。でもこれは始まりに過ぎず、障壁は消えていく。自分のための短命ソフトを、常駐バックグラウンド・エージェントのようなものが全部の詳細を処理し、あなたは関与しない。バックグラウンド・エージェントが機械を持ち、問題を解決し、UIだけを見せて、あなたは言いたいことを言うだけ。うん。
あなた自身が Claude と一緒にできることの境界を、なぜもっと押し広げないの? たとえば AutoResearch とか、もっと重要なプロジェクトに集中してるとか、山に登ってるとか?
ええ。自分は何にでも気が散ってしまうんです。授業に1週間くらい費やして、やることはもっとある。でも言えるのは、残念ながら、こういうツール自体がどんどん忙しく、どんどん強力になっていく。
ええ、メールやカレンダーなど多くに実際は活用してない。アクセス権を与えてない。まだ疑ってるし、新しくてエッジが粗いから。デジタル生活へのフルアクセスはまだ与えたくない。理由の一部はセキュリティとプライバシーで、そこはすごく慎重であるべき。だからいくつかは阻害されてる。支配的な要因かもしれないけど、単に自分が気が散って「1週間使ってる間に別のことが起きた」というのもある。
モデルを訓練、あるいは少なくとも最適化して、エージェントが長期的に遂行してほしいタスクに合わせる、という話をしてたけど、AutoResearch の動機は?
AutoResearch。ええ。以前ツイートしたと思うけど、いまあるツールを最大限に活かすには、自分のボトルネックを消す必要がある。次の一手を逐次プロンプトしてるだけじゃダメ。自分自身をループから外す必要がある。完全自律にして、最大限にトークン吞吐量を上げて、ループにハマらないようにする。そのためにはどうすればいいか。いまゲームの名前は“影響力を増やす”こと。自分はたまに少しトークンを投入するだけで、大量のことが自分の名義で起きる。AutoResearch はその一例。人々はそれを好きかもしれないけど、そこに含意される“働き方”は好きじゃないかもしれない。自分にとって AutoResearch は含意そのものの例です。
つまり、自分がループ内の研究者になりたくない。結果を見たりしてシステムの邪魔になりたくない。問題は抽象化をどう再構成すれば、1回設定して走らせるだけで、名前の通り「より多くのエージェントがより長く動き、あなたが関与せずに代理で動く」ようにできるか。AutoResearch は、目標、指標、できることとできないことの境界を定めて、走らせて去る。そういう話。
効果に驚いた?
ええ、動くと思ってなかった。project data chat があって、根本的に、多くの人は自分が GPT-2 の訓練などに執着していることを不思議に思うけど、自分にとっては GPT などを訓練するのは小さなツールで、LLM訓練の小さな遊び場に過ぎない。根本的に興味があるのは、再帰的自己改善のアイデアで、LLMの自己改善をどこまで押し進められるか。フロンティア研究所は本質的にみんなそれをやってる。明白な理由で、粗く言えば再帰的に自己改善しようとしてる。だから自分にとってはミニゲームみたいなもので、昔ながらの手動ハイパラ調整が好きだった。研究者として20年やってきた。
ええ。
自信がつく。
そう、何千回も訓練して、実験をたくさんやって、超初級の調整もして、慣れたことを全部やってきた。20年やってきた。それで「かなり良い」と思うところまで調整して、AutoResearch に一晩回させたら戻ってきて、自分が見てなかった種類の調整をしてた。
ええ、たとえば value embedding の weight decay とか、Adam のベータが十分に調整できてなかったとか、そういう相互作用。1つ調整すると他も変わる。自分がボトルネックであるべきじゃない。ハイパラ探索の最適化を自分で回すべきじゃない。結果を見るだけでいるべきでもない。この場合は客観基準がある。だから永遠に続くように組む必要がある。これが AutoResearch の単一版、単一ループの改善みたいなもの。驚いたのは、リポジトリはかなり良く調整されてたのに、まだ発見があったこと。これは単一ループ。フロンティア研究所は数万GPUクラスタを持っている。小さめのモデルで大量の自動化を得るのは容易に想像できる。フロンティア級の知能は外挿とスケール損失がすべてだから、小さいモデルで大量に探索し、それを推論へ持ち込む。
つまり、研究はもっと効率的になって、スケールするときの方向性も良くなる、と。もしこの実験をうまくできれば。
ええ。最も面白いプロジェクトは、フロンティア研究所が小さいモデルで実験して、それをできる限り自律化し、研究者をループから外すことだと思う。研究者が多すぎる。逆は何? 自信過剰。彼らは知らない。触るべきじゃない。全部書き直さなきゃいけない。もちろんアイデアは出せるけど、実装はするべきじゃない。アイデアキューがあって、アーカイブ論文や GitHub リポジトリから自動科学者がアイデアを出し、アイデアを集める。研究者もアイデアを出せるが単一キュー。スタッフがプロジェクトを取り出して試し、動くものは機能ブランチに入る。機能ブランチを監視する人がいて、ときどき main にマージされる。つまり人間を全工程から外し、可能な限り自動化し、1秒あたりのトークン吞吐量を最大化するには、抽象化を全部再考する必要がある。全部シャッフルし直し。すごくエキサイティング。
もう一段再帰すると、モデルがあなたより良い program MD を書くのはいつ?
ええ、program MD は……
我々はループにいない。
ええ、まったくその通り。
そう、program MD は、自分の拙い試みで、AutoResearch システムがどう動くべきかを書いたもの。「これをやって、あれをやって、このアイデアを試して」とか。「アーキテクチャを見ろ、オプティマイザを見ろ」みたいなアイデアもある。Markdownで書いただけ。
ええ、そう。異なるバージョンの program MD が異なる進捗をもたらす、と想像できる。つまり各研究組織は program MD によって記述される。
研究組織は Markdown ファイル群で、役割と全体の連携方法を記述している。より良い研究組織を持てる。朝会(standup)はあまりしない組織もある。あまり役に立たないから。これはコードだ。ある組織は standup を減らし、ある組織は増やし、ある組織は大胆にリスクを取る。複数の研究組織を想像できる。コードがあり、コードがあれば調整できる。100% メタ層。
自分のコンテスト案の文章、見た? 人々に異なる program MD を書いてもらう。同じハードウェアで最大の改善がどこで得られるか。
なるほど。
そのデータを全部集めてモデルに与え、より良い program MD を書かせる。
ええ。ええ。
その通り。
良くならないわけがない。
改善源は100%見られる。program MD を変えて、もっとこういうことをする、あるいは動かないことを減らす。
メタ最適化。ええ。
100%想像できる。良いアイデアだと思う。でも一歩ずつ。1つ目の工程、2つ目、その次。玉ねぎの層みたい。LLM部分はいまや当たり前。エージェント部分も当たり前。Claude的な存在も当たり前。複数の存在を持てて、指示できて、指示を最適化できる。多すぎるくらい。でもだからこそハイになる。無限みたいで、すべてがまだ問題。だから狂ってる。
いまの瞬間を診断して、関連スキルは何か。あなたが好きなものは何か。つまり、異なる領域で実現すべきループは「指標を作る」「その指標を、あなた抜きでエージェントが回し続けられるようにする」みたいなこと?
ええ。
性能エンジニアリングも残る?
ええ、LMエコシステムにいくつか注意点がある。第一に、
客観指標で評価しやすいものにはとても向いている。たとえばより効率的なCUDAカーネルを書くとか、モデルの各部分のコードなど。完璧。
非効率なコードがあって、同じ挙動でより速いコードが欲しい。完璧。
こういうものはAutoResearchに向くが、向かないものも多い。評価できないならAutoResearchできない。これが第一の注意点。第二の注意点は、次の一歩が見えているし、我々はそれについて話しているけど、根本的に全体としてはまだ“継ぎ目が割れてる”感じがある。亀裂があって、完全には機能しない。やり過ぎると、全体が役に立たなくなる。
モデルは大幅に改善したけど、エッジがまだ粗い。こう表現する:自分は同時に、非常に優秀な博士課程の学生(生涯システムプログラマみたいな)と、10歳児と話している気分になる。妙だ。人間同士では、こんな組み合わせはない。
この“ギザギザ”は奇妙だ。人間にも多少はあるけど、エージェントはギザギザが多い。あるとき機能を頼むと、完全に間違ったものが返ってきて、完全に間違ったループに入る。自分はエージェントにすごく苛立つ。力を感じるのに、ときどき無意味なことをする。
明らかな問題だと認識すべきところで大量の計算を無駄にするのが腹立たしい。
ええ。根本では、これらのモデルは強化学習で訓練されていて、今話したのと同じ問題を解こうとしている。報酬がある検証可能な部分で改善できるか。正しくプログラムして単体テストを通るか、通らないか。でも苦しんでいるのは、ニュアンス、意図、いつ確認質問をすべきか、みたいなところ。柔らかいものは悪化する。検証可能なレールの上にいれば超知能回路の一部になれるが、レールを外れて非検証領域に落ちると、急に曲がりくねってしまう。別の言い方をすると、今日 ChatGPT のような最先端モデルに「ジョークを言って」と頼むと、何が出てくる? ジョークは出てくる。
ただ、自分は ChatGPT に“3つのジョーク”がある気がする。
ええ。ええ。で、明らかに一番よく出るのは「科学者はなぜ原子を信用しないの?」
オーケー。
「だって原子は何でも作り上げる(make up everything)から」。
オーケー。
そう。これは3〜4年前に聞いたジョークで、今日もまだ聞く。
オーケー。
つまりモデルは大きく改善しても、
ええ。
エージェントタスクなら数時間で山を動かしてくれるのに、
ジョークを求めると、5年前のしょぼいジョークが出る。これはRLの外側だから。強化学習の最適化対象外。ギザギザの一部。モデルが良くなってもジョークが良くなるとか多様化すると期待すべきじゃない。最適化されず、停滞している。
これは、コード知能のような広範な知能が、ジョーク知能のようなものに一般化していない、という意味?
ええ、ある程度のデカップリングがある。検証可能なものと不可検証なもの。実験室がデータ次第で恣意的に最適化するものと、できないもの。
ただ前提として、ある研究グループには「コード生成など検証可能領域で賢くなれば、全部うまくなるはず」という前提がある。でもジョークの例は、それが全部では起きていないことを示す。
自分は起きないと思う。ええ、少しはあるかもしれないが、満足できるほどではない。
人間にも刺激剤(切り離し)はある。数学が得意でも、ひどいジョークを言う人はいる。
ええ、その通り。だから、モデルが良くなると社会のあらゆる分野の知能が“無料で付いてくる”という話にはならない。盲点がある。最適化されていない領域がある。全部が不透明なニューラルネットの中に詰まっている。訓練のレールに乗っていれば光速だが、外れるとそうではない。ギザギザだ。だから、進歩が明らかでも全面的に実現しない。完全には機能しないのか、スキル問題で使いこなせてないのか、判断が難しい。
冒涜的な質問をしていい? このギザギザが続くなら、単一モデルの単一インターフェイスに全部押し込むのは意味がある? それとも、状況ごとに最適化・改善できるように分解すべき?
知能領域ごとに、複数の専門家へ分けるとか。
要するに、なぜこれが得意で他がダメなのか、混乱を招く。
ええ。今の印象は、研究所は単一文化の単一モデルを作ろうとしてる。すべての領域で任意の知能を持つモデルを、パラメータに詰め込む。だけど、知能エージェントにはもっと“種分化”が起きるべきだと思う。動物界の脳は多様で、自然界には多くのニッチがある。視覚野が過発達した動物もいる。もっと種分化が見えるはず。全知の神託は不要。特定の調整をして特定のタスクに置く。小さいモデルでも認知コアは持ち、専門化し、遅延やスループットなど効率的になれる。たとえば“リーンな数学者”みたいに。ドメイン特化を目標にする動きもある。分割が理にかなう例は出てくると思う。
自分の疑問は、計算基盤の容量が制限されていて、効率がより重要になるかどうか。資金を脇に置いたとしても、何にでも無限計算をかけられるなら、単一モデルでもいい。でも「すべてのユースケースに大きいモデルを提供できない」というプレッシャーがあるなら、種分化が起きる? この質問は意味ある?
意味はあります。自分が悩むのは、まだ種分化をあまり見ていないこと。
そう。
単一文化モデルが見えてるだけ。
ええ。
だから、良いコードモデルを作って、それを本流にマージし直す圧力がある。
ええ。ええ。モデルには圧力があるのに。
短期的な供給逼迫があって、それが今は種分化を促すかもしれない。
ええ。根本的に研究所はモデルをサービスしているけど、最終ユーザーが何を聞くか分からない。だから全部に対応する必要がある。でも企業に入って、関心のある具体課題に協働するなら、そこで見えるかもしれない。高価値なニッチアプリもあるだろう。ただ今は“全部取り”を追ってる。脳を操作する科学はまだ完全ではなく、部分的。
「操作」ってどういう意味?
たとえば機能を失わずに微調整するとか。そういうプリミティブがない。コンテキストウィンドウを超えた形で知能を使うとか。コンテキストは動くし安い。そこで多少のカスタムができる。でも重みを触ってより深く調整する、継続学習する、特定領域を微調整して良くする、そういう科学は発展途上。重みを触るのはコンテキストを触るよりずっと厄介。モデル全体と潜在知能を根本から変えてしまうから。つまり種分化は、完全に発展した科学ではないのかもしれない。しかも十分安くなければ価値が出ない。
オープン領域であなたが言っていた AutoResearch の拡張について質問していい? もっと協働のための表面が必要で、人々が全体研究に貢献できるようにする、と。話してくれる?
ええ。単一スレッドの研究(自分がループ内で試す)を話したけど、並列化が面白い。自分はいくつかアイデアを試したいが、まだ満足できる“クリック一発”みたいなものはない。でも仕事をしてないときにバックグラウンド・エージェントをいじるのが好きで、その延長。問題は、並列ノードがたくさんあるなら、複数の AutoResearcher が共通システムで会話するのは簡単。でも自分がより興味あるのは、インターネット上の“信頼できない労働者”の群れをどう扱うか。
たとえば AutoResearch で、検証損失をすごく低くする訓練コード片を見つけたい。誰かが候補コミットをくれたら、それが正しいか良いかを検証するのは簡単。ネット上の誰かが「これがもっと良く最適化します」と主張しても、チェックできる。ただチェック自体は作業が大きいかもしれない。嘘もあり得る。だから“信頼できない労働者プール”を扱う。設計としてはブロックチェーンに少し似て見える。ブロックではなくコミットで、コミットが相互に積み上がり、コード改善に関する変更を含む。Proof of Work は大量の実験で有効なコミットを見つけること。
難しい。報酬はリーダーボード入り。金銭報酬はない。この比喩を押しすぎたくないけど、本質は「探索は高コスト、検証は低コスト」。誰かが1万のアイデアを試す必要があるが、あなたは「出てきたものが本当に効くか」だけをチェックすればいい。99%は効かない。
要するに、信頼できない労働者プールと、検証する信頼できる労働者プールを協働させるシステムが必要で、非同期に動き、安全である必要がある。任意コードを送られて実行するのは危険。だけど原理的には可能。SETI@home や Folding@home のようなプロジェクトに似た構図がある。タンパク質折り畳みは低エネルギー配置を探すのが難しいが、見つけたという候補があれば検証は容易。こういう性質(提案が高コスト、検証が低コスト)は多い。だから Folding@home、SETI@home、AutoResearch@home みたいなものに適している。
結論として、インターネット上のエージェント群が協力して LLM を改善し、フロンティア研究所を周回遅れにすることすらあり得る。誰にも分からないけど。フロンティア研究所は大量の信頼計算を持つが、地球はもっと大きく、大量の非信頼計算がある。検証システムを組めれば群衆がより良い解を出せるかもしれない。人々は関心あることに計算を提供できる。最後にもう一つ、会社などは自分の関心領域を持つ。計算があれば、異なるタイプの AutoResearch に貢献できる。たとえば癌など関心領域があるなら、計算を買う機関に寄付するだけでなく、その AutoResearch フォーラムに参加してプールに計算を提供する。つまり計算が、プールへの貢献物になる。
ええ、すごく鼓舞される。面白い。どこまで行くか分からないけど、少なくともシリコンバレーなどで、
中国の小売店が発見したように、個人PCを使うのがまた面白くなってきた。
ええ。
だからバックグラウンド・エージェントのためにPCを動かし、その計算で AutoResearch に貢献する動機も出るかもしれない。
ドルは皆が気にするけど、FLOPs は本当に将来みんなが気にするものになる? 関心の対象が劇的に変わる? いまは金があっても計算を得るのが難しい。
ええ。
だからある意味、FLOPs が支配的に見える。失敗の回数をどれだけコントロールするか、という話になるかもしれない。自分は本当にそうだとは思わないけど、考えるのは面白い。
あなたが最後に出したのは雇用データ分析みたいなものだったよね? 公開データを可視化しただけでも、何か神経に触れた。何に好奇心が?
ええ。みんなAIが雇用市場に与える影響を考えてる。だから雇用市場は実際どう見えるのか? 役割はどこにあるのか? それぞれの職業の人数は? 個別事例を見て、AIについての自分の見方と、それがどう発展し得るかを考えるきっかけにしたかった。これらは人々が使うツールになるのか? これらは職業を置き換えるツールになるのか? 現在の職業はどう変わるのか? 大きく成長するのか調整するのか? 新しい職業は何か? そういう思考連鎖を起動するため。
雇用データは基本的に労働統計局のもので、各職業の将来見通し、今後10年近くでどれくらい成長すると予測しているかを出している。
ええ、10年だったと思う。2024年に作られた。
医療従事者が大量に必要。
ええ。彼らは予測を出してるけど、その予測方法に自分は100%確信がない。もし人々が「今主に開発されているのはデジタルAI、つまりデジタル世界で相互作用し、多くのデジタル情報を操る幽霊/精神のような存在」だと考えるなら、彼らは物理的実体をまだ持たない。物理は遅い。原子を操るから。ビットをひっくり返し、デジタル情報をコピー&ペーストするのは、物質を加速するより100万倍くらい簡単。だからデジタル空間では、沸騰するような活動、書き換え、光速の変化が起きる。一方で物理世界は(外挿すれば)遅い。今は宙吊りで、過去にコンピュータと人がやっていたデジタル情報処理に、AIが第三の操作者として入る。これらの分野は大再編される。ただししばらくは、物理世界は自分が想像するより変化が遅い。だから自分が強調するのは、根本的にデジタル情報を操る職業。家でできる仕事。状況が変わるから。仕事が減る増えるは需要弾力性など多くの要因で決まるが、これらの職業の“あり方”は新ツールで変わる。人間の超有機体的な神経系のアップグレード、そう考えてもいい。
データを見た上で、雇用市場に直面する人、いま何を学ぶべきか、どんなスキルを伸ばすべきか考える人に、観察やガイドはある?
自分たちは、いま仕事で人と会わなきゃいけないことに感謝してる、みたいな言い方もできる。もっと肉体的。
ええ。
あなたの仕事は家でできる?
自分は……大部分できる。関係性の部分は難しいけど。
ええ。これは本当に難しい。雇用市場は極めて多様で、答えは状況による。ただ、これらのツールは新しくて強力だから、まずは追いつく努力をするのが第一。多くの人は無視したがるか、
あるいは怖がる。
怖がる。理解できる。いまのところは基本的に“エンパワーメント”ツール。仕事はタスクの集合で、その一部が速くなる。だから主要ツールとして見るべき。長期は不確実。予測は難しいし、自分は専門家ではない。経済学者の仕事。
でもあなたはエンジニアだ。面白いのは、エンジニアリング需要は増え続けている。
ええ。
一時的かどうか分からない。どう感じてる?
ええ。ソフトウェア需要は希少性のせいで抑えられてきた。ソフトがもっと必要にならない理由は、希少で高すぎたから。
高すぎる。ええ。
障壁が下がると、ジェボンズのパラドックスになる。ソフトが安くなると需要は上がる。より安く、より強力に。典型例はATMと銀行窓口。ATMが出納係を置き換えると心配されたが、実際は支店運営コストが下がって支店数が増え、出納係も増えた。つまり、安くなるとロックされていた需要が解放される。自分はソフトウェアエンジニアリングの観点では慎重に楽観的。ソフト需要は非常に大きくなり、安くなる。相当長い間は予測が難しいが、少なくとも局所的には、ソフト需要は増える。ソフトは驚異的で、デジタル情報処理は強い。任意の不完全な既存ツールを無理やり使う必要がなくなる。コードは短命で、変えられ、修正できる。だからデジタル空間は活動が増え、あらゆるものが再配線される。そういう需要が生まれる。長期的には、AutoResearch のように OpenAI や Anthropic などの研究所は約1000人の研究者を雇っているが、彼らは
“栄光の自動車”(原文のまま)
みたいに、能動的に自動化している。彼らがやろうとしていること。
ええ。
自分は周りを見回して、研究者もハイになってるのを感じる。動かせるから。
ええ。
だから「自分も終わった」みたいになる。
自分は周りを見て、「成功したら、我々は全員失業だよね」と思うことが多い。
Sam か何かのために自動化を作ってるだけ、みたいな。取締役会かCEOか何かのために自動化を作って、我々は失業。横で貢献するかもしれない。だからその観点では緊張する。
ノームの質問をしていい? 計算規模とフロンティア研究所の同僚群で正しいことができるなら、なぜそうしない?
うーん。自分はそこにしばらくいて、一度出て、また戻った。ある意味同意。解決策は色々ある。重い問題。自分は、フロンティア研究所以外でも影響を出せることに満足している。業界内部ではなく、エコシステムレベルの役割として。あなたの役割もエコシステムレベル。自分も今はエコシステムレベルで、人々がそういう役割で出せる影響に満足している。逆に、自分の頭の中には問題もある。自分はフロンティア研究所と価値観が一致しすぎる。つまり、フロンティア研究所には巨大な経済的インセンティブがあり、AIは劇的に社会を変えると自分も認めている。そこにいて技術を作り、金銭的に非常にアラインする。これは中核の難題。OpenAI が始まったときの難題でもある。
だから、これはまだ完全に解決していない。第一に、あなたは完全に自由なエージェントではない。フロンティア研究所にいると、完全に自律な自由な形で会話に参加できない。言えないことがある。組織は言ってほしいことがある。腕をねじるわけじゃないけど圧力はある。「こう言うべき」みたいな。そうでないと気まずい。だから独立したエージェントになれない。フロンティア研究所以外の方が、そういう圧力が少なく、人類とのアラインメントがしやすい。何でも言える。もちろん、研究所内でも影響は出せる。良いアイデアを持つ研究者もいる。決定が多く、重要な対話があるとき部屋にいたい、というのも分かる。いまのところリスクは低く、うまく行っている。でもリスクが高い局面では、組織の従業員としてどれだけ影響力を持てるか分からない。最終的に責任者ではない。部屋でアイデアは出すが、その実体の責任者ではない。そこが機能不全の源になり得る。
一方で、研究所は不透明で、能力と可能性の端にいて、起きつつあることを研究している。研究所の外にいると判断が漂流する。中で何が起きているか分からず、裏でどう動いているか理解できず、どう発展するかも分からない。だからその意味で同意するし、緊張もある。とはいえ自分はそれが価値あると思っている。実際に起きていることに触れ、最前線の研究所で実際の仕事をする。もしどこかの研究所が自分を呼んで、しばらく本当に仕事をして、また戻る、みたいな設定があるなら、
仕事を探してる。すごくエキサイティング。
ええ。
それは良い設定だと思う。実際に起きていることと繋がりつつ、完全に支配されている感覚がない。
ええ。
正直、Noam のような人は OpenAI で素晴らしい仕事ができると思うが、最も影響力のある仕事は OpenAI の外かもしれない。
つまり AutoResearch は独立研究者への呼びかけ。
ええ。外にはやることがたくさんある。理想は行ったり来たり、あるいは両方で驚くほどの影響を出せる。複雑。重い問題。自分は研究所に入って、今は外で、将来また入りたいかもしれない、というのが自分の見方。
世界、あるいはAIエコシステムがフロンティアをどれだけ見通せるか、という点では、オープンソースがフロンティアにどれだけ近いか、そして持続可能性。
ええ。かなり……実際、驚きのイベント列は、中国モデルやグローバルモデルが出てきたこと。短期的に発表が続くと思う。能力の面で、業界の多くが予想したよりずっと近い。
驚いた? あなたは長期のオープンソース貢献者。予測は?
粗く言えば、クローズドモデルが先行。でも人々は「オープンソースは何か月遅れか」を測ってる。最初は何もなく、しばらく18か月だったが、今は収束している。最近は8〜6か月、8か月くらい遅れ、みたいな。自分は明らかにオープンソースの大ファン。OSを例にすると、Windows と Mac OS はクローズドの巨大プロジェクト。LMもそうなる。でも Linux がある。Linux は非常に成功し、大多数のコンピュータで動いている。最後に見たとき、60%くらいが Linux で動いていた。業界は安全に使える共通のオープンプラットフォームを必要としてきた。今も同じ。企業はそれを欲しがる。最大の違いは資本。巨大な資本支出が要る。
だから競争が難しくなる。とはいえ現行モデルは非常に良い。面白いのは、多くの消費者向けユースケースでは、いわゆるオープンソースモデルでも十分良い。さらに進めば、単純なユースケースは十分カバーされ、ローカル実行も可能になるだろう。一方でフロンティア知能への需要は常にある。これはケーキの大きな部分かもしれない。フロンティア知能が必要なのは、ノーベル賞級の仕事、あるいは Linux を C から Rust に移すみたいな大プロジェクト。そういう大規模のもの。そういうところでフロンティアのクローズド知能が働き、オープンソースはより基本的なユースケースを飲み込む。いずれ今日のフロンティアは、数か月後にオープンソースになる。今自分がクローズド研究所で使っている今日のフロンティアも、今年後半にはオープンソースになり得る。それには多くの作業が必要。
だからこの動態は続くと思う。クローズドAISのフロンティア研究所が神託のように存在し、その数か月後にオープンソースが追随する。自分は続くと思うし、全体としてかなり良い設定だと思う。
というのも、自分は“クローズド知能だけ”には躊躇がある。構造的にそうなるべきだと思わない。クローズドだけだとシステム的リスクがある。
うん。
集中化は歴史的にひどい。
一般の政治や経済体制のこと?
ええ。
その通り。東欧みたいに。
ひどい大統領も多い。だから能力の最先端ではないとしても、業界全体がアクセスできる知能の公共ワークスペースが後ろに欲しい。自分は今の業界のパワーバランスはかなり良いと思う。
ええ。でも問題は多い。フロンティア知能を押し進めれば新しいことができるが、人類は大きな問題に直面する。依然として非常に高価なゲーム。だからそうする研究所を支持したい。高価にモデルを進めないと解けない問題がある。
ええ。でもあなたが指摘したように、今日のフロンティアがオープンだったとしても、能力は多い。
ええ、その通り。だからその力、民主化は有用で健全。
ええ。偶然だけど、我々は良い位置にいる。ある意味最適。
この動態が長く続くほど、エコシステムは健全になるかもしれない。曲線下の面積が増えるから。
ただ、追随側でも最近はさらに集中化している気もする。リーダーが必ずしもトップチームではないから。だから理想的ではない。もっと前から後ろまで増えてほしい。部屋にもっと人がいるべき。機械学習ではアンサンブルが単体モデルに勝つ。最難問を考える人がもっと必要。状況を十分理解した上で意思決定する人がもっと必要。2〜3人で扉を閉める未来は良くない。もっと研究所が増えてほしい。結局、オープンソースが役割を持つ場所はある。続いてほしい。今は少し遅れているが、それは良いことでもある。
あなたは自動車の汎用ロボット自律技術の先駆者だよね。ここ数か月でロボット企業に多くが起きている。タスク環境の汎化が本当に印象的に加速し、長期タスクも増え、資金も大量に入っている。起きるのか? 最近見方は変わった?
自分の見方は自動運転で見たことに基づく。自動運転は最初のロボット応用だと思う。10年前、大量のスタートアップがあり、その多くは長期的に成功しなかった。必要なのは巨額の資本支出と時間。ロボティクスも同じ。難しくて混沌としていて、資本と信念が要る。大問題で、プロジェクトは難しい。だからデジタル空間で起きることより遅れる。デジタル空間では、非効率が100倍くらい効率化される混乱が起きる。ビットは簡単だから。だから活動の中心はまずデジタル空間で巨大な変化、物理空間は遅れる。
自分が面白いのは両者のインターフェイス。エージェントが人間の代理で行動し、互いに会話し、タスクを実行し、エージェント経済に参加するなら、純粋にデジタルで動ける。でもどこかで宇宙に行き、宇宙に質問し、実験し、宇宙が何を返すか見て、学んで戻らないといけない。今はデジタル作業が大量にある。既にデジタル化されたものへの集団思考が宙吊りだから。人類には、既にアップロードされた情報を考える思考周期が足りない。いずれ読み尽くし、処理し、試すべきことのアイデアを持つ。でも完全に閉じた知能で、利用可能情報だけでどこまで行けるかは分からない。
だから次は、まず大規模な“解放”が起き、そこで仕事がたくさんある。次に物理とデジタルのインターフェイスに移る。センサーが世界を見て、アクチュエータが世界に作用する。面白い企業はそのインターフェイスから出る。超知能のデータを供給できるか? 正しく相互化するなら、入札に従ってデータを取り出し、物理世界を操作できるか? 物理世界のアドレス可能市場は作業量の面で巨大で、デジタルより大きいかもしれない。ただし原子の硬さは100万倍。だから遅れる。でも市場は大きい。だから機会はその軌跡を辿る。今はデジタルが主な関心で、その後インターフェイス、そして物理の時代が来れば巨大になる。
これは面白い枠組みだね。原子世界でも、読み書きが簡単なことはある。センサー(カメラなど)で読む既存ハードがある。十分賢ければ、
エージェント能力を豊かにし、新しいデータを大量に取得できる。巨額投資なしでも価値を得られる。
ええ。たとえば最近見た例。友人の Liam が経営している journal の CEO を先週訪ねた。彼らは材料科学のために AutoResearch をやろうとしている。
この場合、知的センサーは高価な実験装置。生物学もそう。工学的生物学に興味を持つ人も多い。センサーはカメラ以上のものになる。
もう一つは、あなたの会社のように、人々に訓練データの代金を払う会社。
ええ。たとえば餌やり。
プログラム的に。
ええ。ボーグに餌をやる。これも一種のセンサーの例。だから多様な形がある。
いつか現実世界でタスクを要求し、価格を付け、エージェントに「やり方は分かるよね。データを取ってきて」と言えるようになるのを期待してる。
情報市場が十分にないのが意外。
たとえば Polymarket や他の賭け市場、株など、あれほど自律活動があって活動量が増えているのに、
たとえば「イランで今起きた件について、どこかから写真や動画を撮るのに10ドルかかる」みたいなプロセスがなぜない? 誰かが支払えて、エージェントが賭けや株を予測するために観測する、みたいな。
エージェントネットワークはまだ新しく、そういう仕組みがない。でも起き得る例。『The Demon(悪魔)』という良い本があって、Damon で読むかもしれない。知能の最終形は操り人形のようなものだ、という話。ある意味、人間はアクチュエータでありセンサーでもある。
だから社会は集団として、このタイプに奉仕するよう再形成され、業界全体で起きる。自動化が増え、需要があり、人間は機械の需要を満たすが、必ずしも互いに好意を持つとは限らない。
この非常に具体的な問題、訓練データ不足、AutoResearch が必要、訓練サイクルやSFT部分をより機械化したい、
どの部分のために?
人間をループから外して「モデル品質を上げろ」というタスクを依頼できるようにするため。新データで。
そうだよね?
ええ。
意味ある? モデル自身に訓練させられないなら、閉ループタスクとして回す能力がある。データに値段を付けて繋ぐことで。
ええ。
より難しい。
ええ。100%。でも LLM 訓練はすごく簡単で、このパラダイムに合う。
つまり、
ええ、クリーンな指標。
ええ。LM訓練は合う。コード最適化もそう。速くし、最適化指標もある。指標に対して自律ループを回すと過学習するけど、良い努力も多い。さらに指標そのものを設計するのにも使える。だから難しいが、ある意味とても合う。
終わる前に、あなたの小さなプロジェクトについて話したい。micro GPT について教えて。
ああ、ええ。micro GPT。自分は10年くらい、LLMを本質に向けて簡素化することに執着してきた。ナノ GPT みたいな、さらに小さい micro GP、micro grad など。micro GPT はいま最先端で、本質に削る試み。ニューラルネット、特に LLM の訓練は大量のコードに見えるが、その多くは効率のための複雑性。
速く走らせる必要があるから。速さが要らずアルゴリズムだけ気にするなら、注釈込みで200行のPythonで、読みやすく書ける。テキストデータセットがあり、50行くらいのネットワーク構造が要る。前向き計算をし、逆伝播で勾配を計算する。小さな autograd エンジンが100行くらい。オプティマイザ、たとえば Adam は先進的だけど10行くらい。訓練ループに全部入れて200行。
昔なら、micro GPT を思いついたら、人に説明するのにワクワクして、動画で段階的に解説したりガイドを書いたりしたと思う。でもそれはもうあまり意味がないと気づいた。200行で既に簡単だし、誰でもエージェントに頼めば色々なやり方で説明してもらえる。自分は人に説明するんじゃない。エージェントに説明している。エージェントに説明できれば、エージェントがルーターになって、無限の忍耐と能力で、人間の言語で人間に届けられる。
そう。特定の関数が分からなければ、エージェントに3つの違うやり方で説明してと言える。あなたから聞く必要はない。
その通り。
だから教育って何? 以前はガイド、講義、そういうもの。でも今は、自分がエージェントに説明している。そしてスキルとは、エージェントにどう教えさせるかを指示する技術かもしれない。micro GPT の進捗スキルを持てる。コードベースを理解したいなら、エージェントが案内すべきで、それはプロンプトとして「まずここから、次にそこから」みたいに書ける。だからコースを書くことがスキルになる。
だから、人に直接説明するのは減り、エージェントが理解しているかが重要になる。エージェントが理解していれば説明する。まだ完全にはそうなってない。自分はまだエージェントより上手く説明できると思う。でもモデル改善が速すぎて、ある意味、負け戦だと思う。教育は徹底的にシャッフルされる。相互に教え合うことの終わり。コードベースなどで、以前は人間向けにHTMLドキュメントを書いた。でも今はそうじゃなく、エージェント向けにMarkdownドキュメントを書く。エージェントが理解すれば、全部の部分を説明できる。だからエージェント経由のリダイレクトが起きると思う。
偉大な教師たちは、エージェントに違う形で物事を説明する直観を育てるのを厭わないかもしれないね。
最終的に、あなたが聞いた micro GPT のように、micro GPT を書かせるエージェントを探そうとした。ニューラルネットを最も単純な形に落とし込め、と。できなかった。micro GPT は自分の執着の終着点。200行。長い時間考えた。これ以上単純にはできない。これが自分の価値の広告。他は全部、エージェントが理解している。
でも彼らには思いつけなかった。ただ完全に理解はしていて、なぜそうするのかも分かっている。だから自分が本当に貢献できるのはごく一部で、残り――後続の教え方や表現――は自分の領域ではなくなるかもしれない。教育も同じ変化が起きるかもしれない。コースで強い判断を持つ部分、最良の説明だと思う部分を能動的に注入する必要がある。エージェントができないことが、いまのあなたの仕事で、エージェントができることは、すぐにあなたより上手くやるようになる。だから、自分の時間をどこに使うかを、より戦略的にしないといけない。
本当にありがとう、Andrej。
ええ。
Twitter/X で No Priors をフォローしてください。動画版を見たいなら YouTube チャンネルも購読できます。Apple Podcasts、Spotify、あるいは普段聴いているプラットフォームでも番組をフォローすると、毎週新エピソードを受け取れます。no-priors.com でメール登録するか、各回の文字起こしもチェックしてください。