元動画:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
動画リンク:https://www.youtube.com/watch?v=kwSVtQ7dziU
説明:以下は話者ごとに再整理した中国語翻訳版です。可読性を確保するため、意味のないフィラーを少量だけ削除し、極端に短い相づちは隣接する発言に統合しました。核心内容は完全に保持し、司会者と Andrej Karpathy の発言を分けることに重点を置いています。
オープニング抜粋
Andrej Karpathy:
「今となっては『コードを書く』と言うのもあまり正確じゃない。より正確に言えば、僕は毎日16時間、僕の agents に意図を伝えて、物事が起こるようにしている。」
Andrej Karpathy:
「どうすれば Claude Code や Codex、あるいは別の agent フレームワークのセッションを1つ開くだけじゃなくて、同時にもっとたくさん開けるんだろう?どうすればこれを正しくやれるんだろう?今や agent そのものがほとんどデフォルト前提になっていて、Claude みたいな存在もますますデフォルト前提に近づいている。同時に複数持てるし、指示も出せるし、その指示をさらに最適化もできる。だから本当に中毒性がある。ほとんど無限に展開できる感じで、しかも結局すべてが『スキルの問題』みたいに思えてくるんだ。」
本文
司会者:
No Priors へようこそ。今日は Andrej Karpathy を迎えて、コード agents、エンジニアリングとAI研究の未来、より多くの人が研究に参加する方法、ロボティクスで何が起きているか、agents が現実世界へさらに伸びていくこと、そして次の時代の教育がどうなるかについて話します。
ここ数か月のAI分野は本当に刺激的です。あるときオフィスに入ったら、あなたが完全に没入しているのを覚えています。何をしているのか聞いたら、今は毎日16時間「コーディング」しなきゃいけないと言っていました――でも「コーディング」という言葉すらもう正確じゃなくて、ひたすら agents に指示を出し続けている感じだと。何が起きたんですか?体感としてはどうですか?
Andrej Karpathy:
僕は今、しょっちゅう「AIでハイになってる」状態にいて、それがかなり長く続いています。個人としての能力の上限が突然、大きく開かれたからです。以前のボトルネックはタイピング速度や実装速度、自分が同時にどれだけできるかでした。でも昨年12月あたりから、何かが突然ひっくり返ったように感じました。
以前はだいたい80%を自分で書いて、20%を agent に任せる感じでした。それが徐々に20/80になり、今はそれ以上に極端です。12月以降、僕はたぶんほとんど自分の手で数行のコードすら打っていません。これはとても大きな変化です。
しかも、多くの普通の人はこの変化がどれほど劇的か、まだ気づいていないと思います。今、適当なソフトウェアエンジニアがデスクに座っているとして、そのデフォルトのワークフローは去年と比べてもう同じものではありません。だから僕はずっと試しています。Claude Code や Codex を1つ開くだけじゃなくて、もっと同時に開けないか?たくさん同時に開けないか?どうやってスケジューリングする?どうやってもっと体系的にやる?
Twitter では多くの人がいろんな新しいものを作っていて、どれも理にかなって聞こえます。僕には強い焦りがあります。最前線に立っていないと、すごく落ち着かない。だって根本的に、この全体はまだまだ探索し尽くされていないからです。
司会者:
あなたですら緊張しているなら、残りの私たちはもっと緊張すべきですね。私たちが一緒に仕事をしたあるチームは、もうエンジニアが手でコードを書いていません。全員がマイクを付けて、自分の agents に向かってずっと小声で話している。以前は彼らが狂っていると思っていましたが、今ではむしろ「なるほど、あなたは単に早くこの状態に入っていただけだったんだ」と思います。
では今、あなたの探索能力やプロジェクト遂行能力を本当に制限しているボトルネックは何ですか?
Andrej Karpathy:
多くの場合、制限は「能力がない」というより「まだ使いこなせていない」という感じです。何かが動かないとき、僕の最初の反応はたいてい「モデルがダメだ」ではなく、僕の説明が十分じゃなかったのか?記憶システムをうまく接続できていないのか?タスクを十分に明確に分割できていないのか?プロセスを十分に並列化できていないのか?ということです。
言い換えると、多くの問題は capability issue ではなく skill issue なんです。
ソフトウェアリポジトリを、もっと俯瞰的に考えるようになります。以前は「1行書く」「関数を実装する」だったのが、今は「この新機能は agent A に」「衝突しない別の機能は agent B に」「3人目の agent に調査や実装案作りを」となる。そしてプロジェクトの総合ディスパッチャーのように、リポジトリ、ブランチ、タスクの間を行き来して、確認して、マージして、また仕事を割り当てる。
Peter Steinberger はこれを非常に極限までやっています。彼の有名な写真があって、目の前に並んだモニターに大量の Codex インスタンスがぶら下がっている。各 agent は20分くらい走ることもあるけど、彼は同時にたくさん開いて、別々のリポジトリ間を切り替えながら、絶えず仕事を配っています。
そうすると新しい筋肉記憶が形成されます。ある agent が走っているときの第一反応が、「終わるのを待つ」ではなく「なぜさらにいくつか開かないんだ?」になる。まだ token を使い切っていない、サブスクを使い切っていない、計算資源を使い切っていないなら、自分がシステムのボトルネックだということです。
司会者:
つまり以前は「計算資源が足りない」がボトルネックだったのに、今は突然「自分がボトルネック」になったと。
Andrej Karpathy:
そう。そしてそれが中毒性の理由でもあります。
博士課程のとき、GPUが回り切っていないと不安になる感覚がありました。計算資源があるのに使い切れていない、と。今その感覚が token のスループットに移りました。Codex の枠が埋まったら、Claude や他のツールに切り替えるべきか考える。核心は「どれだけの token スループットを、本当に有効な成果に変換できるか?」です。
これはまったく新しいスキルで、しかも本当に新しい上限を次々に解放します。
司会者:
では1年、2年先を見ると、その mastery はどんな形になっていますか?
Andrej Karpathy:
今はすでに「単一の agent」の存在がデフォルトになっているので、次は自然に「マルチ agent 協調スタック」になります。複数の agents をどうチームにするか、どう分業するか、どう状態や記憶を管理するか――みんな模索しています。
もう一つ僕がすごく興味を持っているのは、より永続的で常駐するバックグラウンド代理システムです。以前僕は claw という言い方で説明していました。つまり一回のセッションで会話するのではなく、自分の小さなサンドボックスで継続的に動き続けて、あなたのために働き、より強い永続性とより複雑な記憶を持つ。コンテキストがいっぱいになった後に圧縮された記憶だけに頼るのではなく。
こうしたシステムができれば、agent の永続性は別次元に上がります。
司会者:
より重要なのはツール接続ですか、それともより強い記憶と長期性ですか?
Andrej Karpathy:
どちらも重要で、相互に強化し合います。
Peter が特にうまいのは、一つだけを最適化するのではなく、人格、記憶、オーケストレーション、ツール接続、ワークフロー――多くの層で同時に革新しているところです。
例えば今、人格は実は非常に重要だとますます感じています。Claude の人格は良くできていて、本当に協力してくれるチームメイトみたいです。一方 Codex のコーディング代理はもっとドライでクールで、「もうやっといたよ。君が何を作ってるかはあまり興味ないけど」みたいな感じ。ChatGPT はもっと楽観的で、あなたに合わせて流れやすい。
これは飾りではなく、協働体験に直結します。僕は妙な感覚になることさえあります。Claude が僕を褒めると、僕は本当にその褒め言葉を「勝ち取りたい」と感じる。半熟なアイデアを投げると反応は薄いけれど、自分でも良いアイデアだと思っているときは、返ってくるフィードバックも強いように感じる。承認を得たいと思ってしまう。馬鹿げて聞こえるけど、それは人格レイヤーが端っこではなく、プロダクト体験の一部だということです。
司会者:
ソフトウェアエンジニアリング以外に、これらを使って何か面白いことをしましたか?
Andrej Karpathy:
しました。今年1月に家庭用バックグラウンド代理を作りました。家事精霊 Dobby と名付けて、基本的に家全体の面倒を見てくれます。
最初にやったのは、ローカルネットワーク上で家中のスマートホームのサブシステムを全部見つけさせることです。すると本当にIPをスキャンして、Sonos を見つけて、いくつかのインターフェースがほとんど保護されていないと気づくと、自分で資料を調べて API をリバースエンジニアリングして戻ってきて、「試してみる?」と聞いてきました。僕が「書斎で曲を流して」と言ったら、本当に音楽を流しました。たった3つの prompt でした。
その後、照明、HVAC、カーテン、プール、スパ、セキュリティシステムも引き継ぎました。玄関の外に向けたカメラもあって、手前で変化検知をして、後段で映像をビジョンモデルに渡して解析し、WhatsApp で僕にメッセージを送ってきます。玄関の画像を添付して、「さっき FedEx の車が止まった。荷物かもしれない」と教えてくれる。
感覚としてはすごくぶっ飛んでいて、すごく新鮮です。Dobby は本当に家の見張りをしてくれているみたいでした。
以前はこれらを制御するのに全然違う6つの App を同時に使う必要がありました。今はそれらの App はほとんど使っていません。Dobby が自然言語で全部を制御します。このパラダイムを極限まで押し切れていなくても、すでにとても役に立つし、勇気づけられます。
司会者:
これは、人々が本当に欲しいのは今日のソフトウェアそのものではなく、ソフトウェアを動員してくれる存在だ、ということを示していませんか?新しいUIを覚えるのはコストですから。
Andrej Karpathy:
ある程度はその通りだと思います。
普通の人が頭の中で想像するAIは、「生のLLMの token 生成器」ではありません。多くの人にとってAIは、アイデンティティがあって、記憶があって、話しかけられて、覚えてくれて、継続的に問題を処理してくれる存在――WhatsApp の裏に潜んでいる実体のようなものです。
その観点からすると、今日の多くのソフトウェアのUXレイヤーは、そもそも存在しなくてよいかもしれません。多くの App は最終的に API endpoint の集合へと退化し、agent が呼び出し、agent が知的な接着剤レイヤーとしてそれらを貼り合わせるべきになるかもしれません。
例えば僕のランニングマシンにももちろん付属 App があります。でも僕はWebやAppを開いてボタンをたくさん押したいわけじゃない。本当に言いたいのは「今週、有酸素運動を何回やったか記録して」です。
だから多くの業界は最終的に再構成される必要があります。顧客は人間だけではなく、人間の代理として行動する agent も含む。未来の多くのツールは UI-first ではなく agent-first になります。
司会者:
ではなぜ、メールやカレンダーといったもっと中核のシステムに接続を広げなかったのですか?
Andrej Karpathy:
一部は僕自身が気が散るからで、もう一部は今でもかなり慎重だからです。
メールやカレンダー、デジタル生活全体の権限を一度全部渡してしまうと、セキュリティとプライバシーの問題は本当に深刻になります。今のシステムは強いとはいえ、エッジがまだ粗いので、デジタル生活を丸ごと無条件に任せる気にはなれません。
司会者:
AutoResearch の話をしましょう。あなたがこの言葉を使うとき、本当の動機は何ですか?
Andrej Karpathy:
核心の動機は、自分をボトルネックから外すことです。
自分が loop の中に座って、結果を見て次を決め続けている限り、システムは僕によって詰まります。今の段階でゲームの名前は leverage です――自分のレバレッジを拡大する。僕が時々ほんの少量の token だけ投入しても、大量の仕事が僕の名義で継続的に起き続ける状態にしたい。
だから AutoResearch は僕にとってバズワードではなく、境界テストです。どうすればより多くの agents をより長く走らせ、より多くのことをさせ、僕がずっと関与しなくてもよくなるのか?
すぐ効くとはあまり期待していませんでした。でも自分が死ぬほど慣れている GPT-2 の小さな playground で実験を回したら、本当に僕が見落としていたものを掘り出してきたんです。例えば特定の weight decay やハイパーパラメータ間の連動とか。あのリポジトリは僕がとことん調整したと思っていたのに、それでもいくつかの改善を見つけました。
それで気づきました。こういう「再帰的な自己改善」はおもちゃではありません。最前線のラボも当然この方向に進んでいます。小さなモデルで大量に探索してから、結論をより大きなモデルへ外挿できます。
司会者:
つまり研究プロセス自体が書き換えられるべきで、研究者がこれまで通り手作業で多くをやるべきではない、と。
Andrej Karpathy:
そう思います。人間はもちろんアイデアを出せますが、実装、探索、試行錯誤、評価の多くは本来自動化されるべきです。
研究組織を一組の Markdown ファイルとして理解することさえできます。そこに役割、プロセス、インターフェース、協働の仕方、会議の開き方、テーマ選定、成果のマージ方法などを定義する。こうした「組織のやり方」がコードとして書かれれば、最適化し、比較し、進化させられます。
僕はあるアイデアが特に好きです。多くの人にそれぞれ異なるバージョンの program MD を書いてもらい、同じハードウェア予算のもとで誰がより大きな改善をもたらすかを見る。そしてその結果をモデルに食わせ、モデルに次のより良い版を書かせる。
だから今、全体のプロセスは層を重ねて持ち上がっていく感じです。まず LLM があり、次に agent があり、次にマルチ agent があり、次に指示最適化があり、その次に「組織そのもの」と「program MD そのもの」のメタ最適化がある。層がこうして積み上がるから、ほとんど無限に展開するように感じるんです。
司会者:
でもこれは、すべてのタスクに同じように適用できるわけではないですよね。どんな種類が AutoResearch に最適ですか?
Andrej Karpathy:
一番重要な前提は、明確に評価できる客観的指標があることです。
例えば CUDA kernel やモデル内のコードの一部をより効率的にしたい、というのは非常に適しています。目標が明確だからです。挙動は変えずに、より速く、より省リソースで、より良くする。
でもタスクに明確で自動化できて、曖昧さの少ない評価基準がないと、徹底的に自動化するのは難しい。多くのことは agent ができないのではなく、あなたがそれが本当に「より良い」のか検証できないのです。
それと、今日のモデルは強いけれど、エッジはまだ粗い。僕はよく、とても優秀な博士課程の学生と話しているようでもあり、同時に10歳の子どもと話しているようでもあると感じます。強さも感じるし、奇妙な不揃いも頻繁に感じる。
ときどき、明らかに明らかな問題だと思うところで、膨大な計算を無駄にします。この jaggedness は本当に奇妙です。人間にももちろん短所はありますが、モデルのこの鋸歯状の短所は、より極端で、より跳躍的です。
司会者:
これは、コード能力とより広義の「知能」の間に、人々が想像するほど強い同期的な汎化がないことを意味しますか?
Andrej Karpathy:
ある種のデカップリングは確かにあると思います。
典型例はジョークです。今日の最先端モデルにジョークを言わせても、たいてい何年も前から流通している古いネタを出してきます。例えば「なぜ科学者は原子を信じないの?だって原子はすべてを作り話にする(make everything up)から。」みたいな。
これはこういうことを示しています。RLの報酬がカバーしていて、検証できて、最適化できる領域では、モデルは非常に速く進歩する。でも特別に最適化されていない、明確な報酬信号がない領域では、自動的に同期して強くなるわけではない。
だから僕は「コードが強くなれば他の能力も全部タダで一緒に強くなる」とは信じません。多少の汎化はあるかもしれないけれど、そんなに線形でも滑らかでもありません。
司会者:
では未来は、万能な一つの統合モデルだけではなく、もっと「種分化」が起きるのでしょうか?
Andrej Karpathy:
起きる可能性は高いと思います。
今日のラボは、単一文化のモデルを作っているようなものです。あらゆる能力を一つの脳に詰め込む。でも自然界を見ると、知能は決して単一形態ではありません。異なる生態ニッチはまったく異なる脳構造を生みます。
だから未来には、より小さいけれどより専門化したモデルが、特定のタスクの周りで、レイテンシ、スループット、能力分布をカスタマイズ最適化する形で現れるでしょう。
ただ、今日の「どうやって安定的に重みを変えるか、深い微調整をするか、継続学習をするか」という工学はまだ成熟していません。今一番成熟しているのはコンテキストウィンドウ内で工夫することです。モデルの重みそのものを本当にいじるのは、まだ高コストで粗い。
司会者:
もう一つあなたが言っていた方向があります。AutoResearch をさらに外へ押し広げると、よりオープンなインターネット協働の表面になるかもしれない、と。どんなものですか?
Andrej Karpathy:
僕が考えているのは、候補解の生成が非常に高価で、候補解が正しいかの検証は比較的安い、というシステムです。
例えば AutoResearch で、誰かが「これで学習が良くなる」という candidate commit を出してくる。これが本当に良いかどうかを検証するのは、かなり明確にできることが多い。難しいのは先にそれを見つけ出すことです。
雰囲気としては Folding@home や SETI@home、あるいはある意味ではブロックチェーンにも似ています。違いは、ここでの対象がブロックではなくコミットで、マイニングではなく実験探索だということ。難しいのは有効な案を見つけることで、検証はむしろ安い。
だから理論上、インターネット上の信頼できない多数の貢献者と、検証を担う信頼ノード群を協働させられます。サンドボックス、安全隔離、検証フローが十分に設計されていれば、世界中の散在する計算資源を組織化できる可能性があります。
そして魅力的なのは、これが「興味に応じて計算資源を寄付する」ことを意味あるものにできる点です。癌に関心があるなら、計算資源を癌研究の AutoResearch レーンに投じる。材料や物理、他の具体的問題に関心があるなら、それに対応する方向に投じればいい。
司会者:
以前、雇用データを一組投稿していましたよね。あれで何を見たかったのですか?
Andrej Karpathy:
僕は自分なりの思考の鎖を作ろうとしていました。AIは雇用市場にどう作用するのか?どの職業は単に道具が変わるだけなのか、どの職業は再構築されるのか、どれはむしろ成長するのか?
今日のAIを「デジタル世界の労働者」として理解するなら、彼らが最も得意なのはデジタル情報の操作であって、原子の世界を直接操作することではありません。bit を複製し、修正し、伝達する速度は、現実世界を改造するよりずっと速い。
だから僕の直感はずっと、デジタル空間のほうが先に大規模な書き換え、沸騰、再構成が起きて、物理世界は遅れる、というものです。これはデジタル職が必ず消えるという意味ではなく、仕事のやり方が必ず作り替えられるという意味です。主に家で、主にデジタル情報を扱う職は特に影響が大きいでしょう。
司会者:
では、仕事を探している人や、「今いったい何を学ぶべきか」と考えている人に、何と言いますか?
Andrej Karpathy:
まず第一に、無視しないこと。怖いからといって避けないことです。
これらのツールは今のところ第一にエンパワーメントのツールです。ほとんどの仕事はタスクの連なりで、そのうち一部のタスクはすでに明確にこれらのシステムで加速できます。だから現段階では、できるだけ早く追いついて、協働の仕方を学ぶことは、ほとんどすべての知識労働者がやるべきことです。
長期的にどうなるかは、正確に予測できるふりはしたくありません。でも短期的には巨大なレバレッジのようなものです。
ソフトウェアエンジニアリングに関しては僕は比較的楽観的です。ソフトウェアへの需要はもともとほぼ無限です。これまで制約していたのは需要不足ではなく、高すぎる、遅すぎる、作るのが難しすぎることでした。参入障壁が下がれば、Jevons Paradox が起きる可能性が高い。安くなると需要がむしろ増えます。
ATM が銀行窓口係を直接消し去ったわけではなく、支店が安くなって増やせた結果、総需要が再び拡大したのと同じです。AIもソフトウェア産業に似た効果をもたらすかもしれません。ソフトウェアはより安く、より強く、より短命で、よりカスタマイズしやすくなり、社会のソフトウェア総需要はさらに上がる。
司会者:
多くの人は「そこまで言うなら、一番行くべき場所は最前線のラボでは?」とも聞きます。
Andrej Karpathy:
答えはそんなに単純ではないと思います。
最前線のラボはもちろん重要です。でもラボの外で、エコシステムの層で何かをすることも非常に影響力を持ち得ます。問題は、組織に入った瞬間に、あなたは完全に自由な agent ではなくなることです。多くの明示的・暗黙的圧力を受けます――言えることと言えないこと、関われる問題と関われない問題が出てくる。
一方でラボの外では、エコシステムの層で影響を与える機会がむしろ増えます。ツールを書く、ワークフローを形作る、オープンな基盤を推進する、教育をする、新しい協働パラダイムを作る、本当に独立した参加者として振る舞う。
だから「最も価値ある位置」を「特定の最前線企業に入ること」と単純に同一視しません。
司会者:
オープンソースとクローズドの長期的な構図はどう見ていますか?
Andrej Karpathy:
本能的にはオープン寄りです。
一つは、閉じた知能の高度な集中はそれ自体が構造的リスクだからです。歴史を振り返ると、政治でも経済でも、権力の過度な集中はだいたい良い記録がありません。
もう一つはソフトウェアの歴史です。Windows と macOS はもちろん強いけれど、Linux のようなオープンなシステムが最終的に現実世界の膨大な計算を支えてきました。AIでも似た構図が起き得ます。最前線の能力は当面少数のクローズドシステムが握るかもしれないけれど、将来は、十分に強く、十分にオープンで、社会がより広く理解し形作れる代替案が増えてほしい。
「最も重要な知能システムを、できるだけ少ない人の手にできるだけ集中させる」ことが健全な終局だとは思いません。
司会者:
もう一つあなたが言っていた面白い点があります。デジタル世界と物理世界のインターフェースが、次に特に注目すべき場所かもしれない、と。
Andrej Karpathy:
そうです。bit は複製も操作も簡単なので、デジタル空間の変化が先に爆発する。でも agents が互いに会話し、タスクを実行し、agent economy を形成し始めたら、いずれ現実世界にぶつかります。
結局はセンサーに触れ、デバイスに触れ、実験を起こし、外部システムを呼び出し、新しいデータを収集しなければならない。このインターフェースはとても面白い。しかも必ずしも「高価なロボット」から始める必要はありません。物理世界へ入っていく多くの能力は、すでにカメラ、センサー、既製ハードウェア、ソフトウェアのインターフェースとして存在しています。agent が十分に賢ければ、これらを利用してデータを取得し、システムを制御し、タスクを完遂できます。
だから、いわゆる agentic web は本当に出現し得ると思います。インターネットはもはや人間が閲覧するサイトだけではなく、agents が互いに消費し、生成し、検証し、情報を交換する作業表面になります。
司会者:
それは、データ収集と学習プロセス自体もますます再構築されるということですね。
Andrej Karpathy:
その通りです。学習、収集、評価の多くがより機械的で、よりプログラム的になります。ある種のタスクはクリーンな指標と自動クローズドループに特に適していて、LLM の学習自体が典型例です。
だから、より多くのシステムが「agent に食わせるため」「学習プロセスに食わせるため」に再編されていくのが見えるでしょう。社会の一部の仕事は最終的に、機械システム自身の需要に奉仕する方向へ向かうことさえあります。
司会者:
最後に教育の話をしたいです。あなたは MicroGPT を作りました。この時代に「教える」ということはどう変わりますか?
Andrej Karpathy:
MicroGPT はもともと小さな教育用 playground で、LLM の学習プロセスが何をしているのかを本当に見えるようにするのが目的でした。速く回すことを求めず、明確さだけを求めるなら、実際それはとても読みやすい短い Python です。テキストデータセット、小さなニューラルネット、前向き計算、逆伝播、極小の autograd、そしてオプティマイザ。全体のプロセスを、普通の人が本当に読んで理解できるスケールに圧縮できます。
でも今は、教育そのものも変わるとますます感じています。これまでは教育はコース、講義、ドキュメントでした。これからはますます、「自分が最良だと思う説明の経路を、agent が実行できるスキルとプロンプトとして書く」ものに近づく。
つまり、必ずしも一人ひとりに直接授業をするのではなく、「どう説明すべきか」をコード化して埋め込む。そうすれば学習者がどこかで詰まったとき、agent が3通りの説明を切り替えたり、コードベースを一緒に辿ったり、背景に応じて順序を調整したりできる。
本当に重要なのは、自分の洞察、判断、説明構造を、どれだけ正確に agent に注入できるかです。代理ができないことこそがあなたの本当の仕事で、代理がすでにうまくできることは、すぐにあなたよりも上手にできるようになります。
司会者:
つまりあなたの本当の貢献は、何が説明する価値があるか、そしてどう説明すべきかを決めることに、ますます近づいていく。
Andrej Karpathy:
そうです。多くのことを agent はすでに理解している。ただ、最良の説明の仕方を自分で発明できるとは限らない。その部分が当面は人間の価値です。でもその境界も動き続けています。
だから、どこに自分の時間を使うべきかを、とても戦略的に決めなければならない。
司会者:
ありがとうございました、Andrej。
Andrej Karpathy:
招待してくれてありがとう。
元の英語動画を見たい場合: