《编码的终结》:Andrej Karpathy 谈 Agents、AutoResearch 与 AI“循环时代”|完整中文翻译

原视频:The End of Coding: Andrej Karpathy on Agents, AutoResearch, and the Loopy Era of AI
视频链接:https://www.youtube.com/watch?v=kwSVtQ7dziU

说明:以下为完整中文翻译稿,尽量保留原意与结构,仅删除少量无意义语气词(如 um、uh)。

“写代码”甚至都不再是准确的动词了,对吧?我现在更像是每天 16 个小时都在向我的代理表达意图,把事情显化出来。
我怎样才能不只拥有 Claude Code 或 Codex 或其中一些代理框架的单个会话?我怎样才能拥有更多?我怎样才能适当地做到这一点?代理部分现在被认为是理所当然的。现在,类 Claude 实体被认为是理所当然的,现在您可以拥有多个实体,现在您可以向它们提供指令,现在您可以对指令进行优化。但我的意思是,这就是为什么它会导致上头,因为这就像无限,一切都是技能问题。
听众朋友们好,欢迎回到No Priors。今天,我和Andrej Karpathy (Andre Karpathy) 在这里,我们将就代码代理、工程和人工智能研究的未来、更多的人如何为研究做出贡献、机器人技术正在发生的事情、他对代理如何接触现实世界的预测以及下一个时代的教育等话题,为您进行广泛的对话。欢迎,安德烈。安德烈,谢谢你这么做。是的,谢谢你邀请我。
,所以这几个月是人工智能领域非常激动人心的几个月。
是的,你可以这么说。
我记得有一次走进办公室,你就像被锁住了一样,我问你在做什么,你说,我只是每天必须编码 16 个小时,否则编码就不再是正确的动词了,对吧?但我必须
每天16个小时向我的代理人表达我的意愿。之所以明显,是因为能力有了飞跃。
发生了什么事?并告诉我你的经历。

是的,我感觉我就永远处于这种人工智能上头状态,就像一直以来一样。因为作为一个人,你可以取得巨大的成就,对吗?因为你的瓶颈在于你知道你的打字速度等等。但现在有了这些代理,我想说的是,在 12 月份,事情发生了翻天覆地的变化,我从 8020 变成了 2080,自己编写代码,而不是仅仅委托给代理。我什至不认为现在已经是 2080 年了。我认为远不止于此。我不认为我基本上从 12 月开始就已经输入过一行代码,这就像一个非常大的变化。我正在与它交谈,就像我正在与我的父母等谈论它一样,我不认为像一个普通人实际上意识到这件事发生了,或者它是多么戏剧性,就像你只是在他们的办公桌上找到一个随机的软件工程师或类似的东西,他们正在做的事情就像你知道的默认工作流程一样,从基本上 12 月开始,构建软件是完全不同的。所以我就像在这种上头状态下试图弄清楚什么是可能的,试图将其推向极限。我怎么能不只拥有一次你知道的Claude Code或Codex或其中一些代理框架。我怎样才能拥有更多?我怎样才能适当地做到这一点?那么我该如何使用这些后台代理呢?这些后台代理是什么?
所以有很多新事物。你知道,我想站在最前沿,但我很不安,因为我没有站在最前沿。我在 Twitter 上看到很多人在做各种各样的事情,它们听起来都是非常好的想法,我需要站在最前沿,否则我会感到非常紧张。所以我想我只是处于这种可能的上头状态,因为它从根本上还没有被探索过。
好吧,如果你紧张,我们其他人也会紧张。我们有一个与我们合作的团队,我们坚信他们的设置是每个人都像,你知道,没有一个工程师手工编写代码,他们都戴着麦克风,他们只是喜欢一直对他们的代理耳语。这是有史以来最奇怪的工作环境,我认为他们疯了,现在我完全接受我的感受,“哦,就是这样。”就像你就在前面一样。
,你如何看待自己现在喜欢探索或做项目的能力,比如它受到什么限制?

是的。它受到什么限制?只是我认为一切都像很多事情一样,即使它们不起作用,我认为在很大程度上你会觉得这是技能问题。并不是说没有这个能力。只是您还没有找到一种方法将可用的内容组合在一起。比如说,我可能没有在 agent/MD 文件或别的地方写出足够好的说明,也没有给它接上足够好的记忆工具之类的东西。所以当系统没有按预期运转时,一切都更像是在提醒你:是不是自己的使用技巧还不够,或者还没把它并行化到位。你基本上想成为彼得·斯坦伯格。所以彼得很有名。他有一张有趣的照片,他站在显示器前,上面有很多像他使用 Codex 的东西。因此,很多 Codex 代理都在设计显示器,如果您正确提示并且付出很大的努力,他们都需要大约 20 分钟。所以它们都需要大约 20 分钟。他们有多个,你知道的,签出了 10 个存储库,所以他只是在它们之间穿行并给它们工作。就像你可以你可以你可以采取更大的宏观行动一样。这不仅仅是一行代码,而是一个新函数。这就像这是一项新功能并将其委托给代理一。这是一项不会干扰其他功能的新功能。给它两分,然后根据你对该代码的关心程度,尽可能地审查他们的工作。比如我可以通过哪些宏操作来操纵我的软件存储库?
就像另一个代理正在做一些类似的研究,另一个代理正在编写代码,另一个代理正在提出一些新的实施计划。所以一切就像在你的存储库上发生的宏观操作一样,你只是想变得非常擅长它并像肌肉记忆一样发展,因为它是非常,是的,它是非常有价值的第一,因为它确实有效。,但它也有点像要学习的新东西。这就是上头的原因。是的,我确实觉得我的直觉就像每当我等待代理完成某件事时,显而易见的事情就是,嗯,我可以做更多的工作,对吧?就像如果我可以获得更多代币,那么我应该瘫痪添加更多任务。所以这是非常有压力的 因为如果你
如果您不觉得自己花在代币上的能力受到很大限制,那么您就知道自己是系统中最大能力的瓶颈。

是的。你至少没有最大化你的订阅,理想情况下对于多个代理来说,比如如果你在 Codex 上耗尽了 额度,你应该切换到云或诸如此类的东西,我不知道这就是我一直在尝试做的事情,当我剩下订阅时我感到紧张,这意味着我没有最大化我的令牌吞吐量,所以我实际上在我还是一名博士生时经历过这种情况,当你的 GPUs 没有运行时,你会感到紧张你有GPU能力,并且你没有最大化可用的FLOPs,但现在这不是失败的问题,而是关于令牌的问题,所以你的令牌吞吐量是多少,你命令的令牌吞吐量是多少我实际上会说,这很有趣,我们让你知道至少10年了,在许多工程任务中,人们只是做他们并没有感到计算限制
是的,整个行业都觉得现在他们感觉资源受到限制
现在你有了这么大的能力跳跃,你会想,哦,实际上,你不再知道我访问计算的能力,就像我一样,我是绑定约束
是的,这是一个技能问题
这是非常有力量的,因为是的,因为你可以变得更好。这就是为什么我认为它非常容易上瘾,因为当你变得更好时,就会解锁。
你认为它会去哪里?就像如果你只是想,好吧,你知道 Andre 正在迭代,而其他人每天 16 个小时都在使用编码代理,就像你已经达到精通的一年会是什么样子?
是的。到了年底,掌握情况会是什么样子,或者两年、三年、五年、十年等等。
嗯,我认为每个人基本上都对提升堆栈感兴趣。所以我想说的是,这不是与你的经纪人的一次会面。多个代理如何协作和团队等等。所以每个人都在试图弄清楚它是什么样的。然后我想说后台代理也是一个有趣的方向,因为当我说后台代理时,我的意思是像这样的层,它将持久性提升到一个全新的水平。就像它是一个不断循环的东西,就像它不是你交互参与的东西一样。它有点像有自己的小沙箱,有自己的小沙箱,你知道它有点像代表你做事,即使你看起来不是什么东西。然后还有可能更复杂的内存系统等,但尚未在代理中实现。因此,我想说,这种常驻后台代理应该拥有比默认代理更复杂的记忆系统,而不只是上下文耗尽时的记忆压缩。正确的。
您认为这会引起更多用户的共鸣,而不是像更广泛的工具访问那样
用于这种常驻后台代理。

是的。那里就像我认为至少我认为
这里有很多非常好的想法。是的。干得好,彼得。
我的意思是彼得做得非常出色。我最近见过他,我和他谈过这件事,他对此非常谦虚,但我认为他以五种不同的方式同时进行创新,并将它们放在一起。例如,就像SOUL 和 MD 文件一样,他实际上真正塑造了一种引人注目且有趣的个性,我觉得很多当前的代理都没有正确理解这一点。其实我觉得Claude有很好的个性。感觉像队友一样
你很兴奋等等,我会说,例如,Codex 更加干燥。,这很有趣,因为而在 ChatGPT 里,它显得更乐观,也更容易顺着你。但我想说Codex 编码代理非常干燥。事实并非如此,它似乎并不关心您正在创建的内容。有点像,哦,我实现了它。就像,好吧,但是你明白我们正在构建什么吗?
这是真的。
你知道,事实并非如此。我想说的另一件事是,例如Claude,我认为他们很好地解决了上头问题,当Claude给予我赞扬时,我确实觉得我有点应得的
因为有时我会给它一种不太成熟的想法,我会给它一个想法,我认为它还没有完全成熟,而且它实际上并没有强烈的反应。就像哦,是的,我们可以实现这一点。但当我自己认为这是一个非常好的主意时,它似乎确实会带来更多的回报。所以我觉得我想赢得它的赞扬,这真的很奇怪。
所以我确实认为个性很重要。我认为很多其他工具可能不会那么欣赏,我认为在这方面彼得也非常关心这一点,所以这是正确的,然后是记忆系统,然后你知道他只是对此很感兴趣,然后是通往所有自动化的单一 WhatsApp 门户。
是的。除了软件工程之外,您是否亲手做过一些您认为有趣或有趣的事情?

是的。所以一月份我有一只后台代理,我经历了一段后台代理上头时期。所以,我建造了一只后台代理,基本上可以照顾我的家,我称他为家务精灵 Dobby。基本上,我使用代理在局域网上找到了我家的所有智能家居子系统,我有点惊讶它开箱即用。就像我刚才所说的那样,我认为我家里有 Sonos。比如你能尝试找到它吗?它确实像对局域网上所有基本计算机进行 IP 扫描一样,它发现了 Sonos 的 Sonos 系统,结果发现没有密码保护或类似的东西。我刚刚登录,就像哦,是的,你已经安装了这些 Sonos 系统,我让我尝试逆向工程它是如何工作的。它进行了一些网络搜索,发现这些是 API 端点,然后你想尝试一下吗?我就像你刚刚那样做了。我说:“是的,你能尝试在书房里演奏一些东西吗?”确实如此,音乐响起,我就像,“我不敢相信我只是
太疯狂了。这就像三个提示。”是的。
我不敢相信我刚刚输入了这样的内容:“你能找到我的 Sonos 吗?”突然间它开始播放音乐。对于灯光也做了同样的事情。基本上就像是被黑了一样,弄清楚了整个事情。创建了 API,创建了一个仪表板,这样我就可以看到命令中心,就像家里所有的灯一样。然后就像打开和关闭灯一样。你知道,这样我就可以像多比在睡觉时问一样。当困倦的时候,这意味着所有的灯都会熄灭,等等。因此,它控制我所有的灯光、暖通空调、窗帘、游泳池和水疗中心以及我的安全系统。所以,我有一个摄像头指向屋外,每当有人进来时,我都会有一个 视觉模型来观看视频。那么,首先,有变化检测,对吗?

然后在检测到变化之后,它会把画面交给视觉模型分析,再通过 WhatsApp 给我发消息。它会附上一张门外的图片,然后告诉我:“嘿,刚刚来了一辆 FedEx 的车,你最好看一下,也许有你的邮件之类的。”Dobby 就这样直接给我发短信,这真的非常离谱,也非常酷。现在 Dobby 基本上就在负责家里的这些事情,我通过 WhatsApp 跟它交流。拥有这种能替你维持整个家的宏观操作体验,真的很有意思。我其实还没有把它推到更夸张的程度,我知道很多人已经玩得更疯了。但即便只是家庭自动化这一层,对我来说也已经非常有用了。以前我得同时用六个完全不同的 App,现在都不用了。Dobby 可以用自然语言控制一切,真的很惊人。所以我觉得,我甚至还没有把这种范式推到极限,但它已经足够有帮助,也足够鼓舞人心。
您认为这是否表明了人们从软件用户体验里真正想要的东西?因为有一点经常被忽略:人类其实得花力气去学习一个新的软件,去适应一个新的界面。是的,我某种程度上同意。这有点像反过来根据人们心里对 AI 的想象来设计系统。因为在大多数人脑子里,AI 并不是原始意义上的 LLM——LLM 本质上只是一个 token 生成器,只是在不断吐出更多 token。人们真正以为的 AI,更像是一个具有人格和身份的存在:你可以和它说事情,它会记住,它像是藏在 WhatsApp 后面的一个实体。那样理解起来就自然多了。
所以从某种程度上说,这其实是在匹配人类对“AI 应该如何表现”的既有期待。只是底层为了实现这一点,背后要塞进大量技术细节;而对大多数人来说,LLM 这个 primitive 其实还是太粗糙了,严格说都还不太像他们心里的那种 AI。
是的,我觉得这也说明了我们是如何理解 AI 的。把它描述成 Dobby,或者赋予它某种人格,显然更容易让人产生共鸣。与此同时,我还觉得,你把六套不同的家庭自动化软件统一起来,其实也指向了另一个问题:
人们真的需要今天这种一堆彼此割裂的软件吗?
是的。
对。因为某种意义上,你保留了硬件,却把软件——至少把软件的用户体验层——直接扔掉了。你觉得那才是人们真正想要的吗?

是的。我认为有这样的感觉,这些应用程序在应用程序商店中用于使用这些智能家居设备等。从某种意义上说,这些应用程序甚至不应该存在,就像它不应该只是API,代理不应该直接使用它吗?我不是可以做任何单个应用程序都无法正确完成的各种家庭自动化工作,并且LLM实际上可以驱动工具并调用所有正确的工具并做相当复杂的事情
因此,从某种意义上说,它确实指出了这一点,也许存在大量不应该存在的定制应用程序的过度生产,因为代理有点像将它们粉碎,一切都应该更像暴露的API端点,而代理是智能的粘合剂,实际上就像工具调用所有部件一样。另一个例子是我的跑步机。,有一个适用于我的跑步机的应用程序,我想跟踪我做有氧运动的频率。但我不想就像登录到 Web UI 并完成流程等等。就像所有这一切应该就像使 API 可用一样,这是您知道走向代理类型 Web 或代理优先工具以及所有此类东西的方式。所以我认为这个行业必须在很多方面进行重新配置,就像客户不再是人一样。这就像代表人类行事的代理,这种重构在某种意义上可能是重大的。人们有时对此提出反对的一种方式是,人们是否希望人们对其中一些工具进行编码?我们期望普通人做我所描述的这种事情吗?
但我认为在某种程度上
这只是你所知道的当今存在的技术,现在有一些vibe coding,我实际上正在观看它并且我正在使用该系统。但我觉得我刚才谈到的这种东西应该在一年、两年或三年内免费。不涉及后台编码。这是微不足道的。这是赌注。这就像任何人工智能,甚至开源模型等都可以做到这一点。
你应该能够很容易地将技术含量较低的人类意图翻译成这个
非常容易。是的。今天涉及到 vibe coding,但没有多少人会这样做。但是
你仍然需要做出一些设计决策,对吗?我们正在谈论就像你以框架为例。
是的。
是的。但我觉得这只是开始,障碍就会消失,它只是代表你的短暂软件,某种类似常驻后台代理的东西正在为你处理所有细节,但你不参与其中。后台代理有一个
后台代理有一台机器,它会解决这个问题,它只是向你展示用户界面,你就像在说你知道的东西。嗯。

我想你为什么不突破你个人和 Claude 一起能做到什么的边界呢?就像你知道你正在专注于更重要的项目,AutoResearch 等,或者你正在攀登高峰或其他什么,对吗?
是的。我只是觉得我对一切都很分心。所以我花了大约一周的时间在课堂上,我几乎还有更多的事情要做。但我会说
不幸的是,像这类工具本身也越来越繁忙、越来越强大。
是的,我并没有真正利用很多像电子邮件和日历以及所有其他东西,我没有给它访问权限,因为我仍然有点可疑,而且它仍然很新并且边缘很粗糙。所以,我还不想让它完全访问我的数字生活。部分原因是安全、隐私,并且在该领域要非常谨慎。而且,所以我想说,其中一些内容似乎受到了阻碍。是的,也许这就像主导的主导特征,但其中一些也只是我感到心烦意乱,因为我觉得我花了一周的时间,然后其他事情发生了。并且
我的意思是,您谈到能够训练或至少优化模型作为您希望看到代理长期执行的任务,就像AutoResearch背后的动机是什么?
AutoResearch。是的。所以我想我之前发过一条推文,我想说的是,要充分利用现在可用的工具,你必须消除自己的瓶颈。你不能在那里提示下一步的事情。你需要带自己出去。你必须安排一些事情,使它们完全自主,并且你知道的越多,如何才能最大化你的令牌吞吐量而不是陷入循环。这就是目标,所以我提到现在游戏的名称是增加你的影响力。我只是偶尔投入很少的代币,大量的事情以我的名义发生,所以 AutoResearch 就像我发推文一样,我认为人们喜欢它等等,但他们不喜欢可能像它的含义那样工作,对我来说 AutoResearch 就是一个例子,就像它的含义一样
就像我不想像循环中的研究人员一样,比如查看结果等,就像我在阻碍系统一样,所以问题是我如何重构所有抽象,这样我就不必一次安排它,然后点击开始游戏的名称是,如何让更多代理运行更长时间,而无需您参与代表您做事,自动研究只是是的,这是一个目标,这是一个指标,这是您可以做什么和不能做什么的界限做然后走,是的
你对其有效性感到惊讶

是的,我没想到它会起作用,因为我有项目数据聊天,从根本上说,我认为很多人对我对训练 GPT-2 模型等的痴迷感到非常困惑,但对我来说,训练 GPT 模型等只是一个小工具,一个训练 LLM 的小游乐场,从根本上来说,我更感兴趣的是这种递归自我改进的想法,以及你究竟能把 LLM 的自我改进推进到什么程度。因为我觉得所有前沿实验室本质上都在做这件事
出于明显的原因,他们都在尝试递归地自我改进,粗略地说,所以对我来说,这有点像一个小游戏笔,我想我已经很喜欢以一种老式的方式手动调参,我习惯了我是一名研究员,我已经这样做了二十年,就像你知道的二十年一样,我有一些类似的东西
是的
赢得信心
好吧,我已经训练了这个模型数千次,所以我做了很多实验,我做了超初级调整,我做了所有我非常习惯的事情,我已经做了二十年了,我已经达到了某个点,我认为它已经调整得相当好,然后我让AutoResearch进行了一夜之间的调整,它回来了,我没有看到类似的调整
是的,我确实忘记了像值嵌入的权重衰减和我的原子贝塔没有得到充分调整,这些东西共同相互作用,所以就像一旦你调整了一件事,其他事情也可能会改变,你知道我不应该成为瓶颈,就像我不应该运行这些超参数搜索优化一样。我不应该只看结果。在这种情况下有客观标准。所以你只是让你必须安排它,这样它就可以永远持续下去。因此,这是 AutoResearch 的单一版本,就像尝试改进的单个循环一样。我很惊讶它发现了这些东西,我知道仓库已经经过相当好的调整并且仍然发现了一些东西。这只是一个单一的循环,就像这些前沿实验室一样,他们拥有数以万计的 GPU 集群。因此,很容易想象如何在较小的模型上获得大量自动化,并且从根本上讲,前沿水平智能等一切都是关于外推和缩放损失的,因此您基本上在较小的模型上进行了大量的探索,然后尝试进行推断。

所以你说我们的研究工作将会变得更加高效,就像我们在扩大规模时会有更好的方向一样,如果我们能够更好地进行这个实验的话。是的,我想说,就像最有趣的项目一样,可能前沿实验室正在研究的是你知道你在较小的模型上进行实验。你试图让它尽可能自主。将研究人员从循环中移除。他们有太多了,相反的是什么?太自信了。是的,他们不知道。他们不应该真正触及任何这些,所以你必须重写整个事情,因为现在我的意思是他们当然可以贡献想法,但好吧,他们实际上不应该实施这些想法。有一个想法队列,可能有一个自动化科学家根据所有存档论文和 GitHub 存储库提出想法,它会汇集想法,或者研究人员可以贡献想法,但它是一个单一队列,有工作人员拉出项目并进行尝试,无论什么工作都会被放在功能分支上,也许有些人喜欢监视功能分支,有时会合并到主分支。所以,是的,只要将人类从所有流程中移除并尽可能自动化并获得每秒尽可能高的 token 吞吐量,它确实需要重新思考所有抽象。一切都必须重新洗牌。是的,我认为这非常令人兴奋。如果
我们在这里再进行一步递归,模型什么时候才能写出比你更好的程序 MD?
是的。所以程序MD是
我们不在循环中。
是的,完全正确。
是的,所以程序 MD 是我蹩脚的尝试,试图描述 AutoResearch 系统应该如何工作,比如哦,做这个,然后做那个,然后尝试这些想法,然后这里可能有一些想法,比如看看架构,看看优化器等。我只是在 markdown 中想出了这个,对吗?
是的,确实如此。您想要某种 AutoResearch 循环,也许您可​​以想象不同版本的 program MD 会给您带来不同的进度。所以基本上每个研究组织都是由程序 MD 描述的。是的,

研究组织是一组 Markdown 文件,描述了所有角色以及整个事物的联系方式。你可以想象拥有一个更好的研究组织。所以也许他们早上很少做站立会议,因为它们没什么用。这只是代码,对吧?因此,一个组织可以减少站立会议,一个组织可以举行更多站立会议,一个组织可以非常敢于冒险,一个组织可以减少站立会议。所以你绝对可以想象你有多个研究组织。然后它们都有代码,一旦你有了代码,你就可以想象调整代码了。所以 100% 就像它的元层。
你看到我关于我的竞赛想法的文字了吗?我的竞赛想法是让人们编写不同的程序MD,对吗?那么对于相同的硬件,您在哪里获得最大的改进?
我懂了。
然后你可以获取所有这些数据,然后将其提供给模型并编写一个更好的程序 MD。
是的。是的。
是的。确切地。
我们会得到更好的东西。就像我们不可能不这样做一样。
您可以 100% 查看改进的来源,例如我可以更改程序 MD,以便完成更多此类事情或类似不起作用的事情。
元优化。是的,
你可以100%想象这样做。所以我认为这是一个好主意,但就像你知道的那样,我认为你一次走一步,你有一个过程,然后是第二个过程,然后是下一个过程,这些都是洋葱的层,就像LLM这样的部分现在被认为是理所当然的。代理部分现在被认为是理所当然的。现在 类 Claude 实体被认为是理所当然的,现在你可以拥有多个实体,现在你可以向它们提供指令,现在你可以对指令进行优化,就像你知道的有点太多了,但我的意思是,这就是为什么它会导致上头,因为这就像无限,一切仍然是问题,这就是为什么我觉得是的,这就是为什么它如此疯狂。好的。好吧,如果我们只是想诊断当前时刻以及现在什么是相关技能,您喜欢什么,您认为这意味着这就是我们应该在不同领域实现的循环,并且它可以正常工作,就像您知道的那样
创建指标或让代理能够在没有您的情况下继续处理该指标。
是的。
我们还有像这样的性能工程吗
是的。我的意思是,我要对 LM 生态系统提出一些警告。第一,

这非常适合任何具有易于评估的客观指标的事物。例如,像为更高效的 CUDA 编写内核一样,模型各个部分的代码等都是完美的选择。
因为您有低效的代码,然后您想要具有完全相同行为的高效代码,但它更快、更完美。
所以像这样的很多东西都非常适合AutoResearch,但很多东西不会,所以它们只是如果你不能评估那么你就不能AutoResearch它,对吗?所以这就像第一条警告。然后,也许我要说的第二个警告是,你知道,我们正在谈论下一步,我们也看到下一步是什么,但从根本上说,整个事情仍然没有,它仍然有点像接缝处有点破裂,有裂缝,而且不能完全发挥作用。如果你试图走得太远,如果这是有道理的,那么整个事情实际上毫无用处。
因为这些模型仍然没有,你知道,它们已经改进了很多,但它们的边缘仍然很粗糙,也许我会这样描述它。我同时感觉自己正在和一位非常出色的博士生交谈,他一生都像一名系统程序员,而且还是一个 10 岁的孩子。这很奇怪,因为我觉得人类之间的联系更加紧密。就像你拥有的一切
你不会,你就不会遇到这种组合。
这种锯齿状确实很奇怪,人类的这种锯齿状要少得多。虽然他们肯定有一些,但人类有更多的锯齿。抱歉,代理有很多参差不齐的地方,有时就像你知道的那样,我要求功能,但它就像回来了一些完全错误的东西,然后我们进入了完全错误的循环,然后我只是我一直对代理感到非常沮丧,因为你感受到了它的力量,但你也仍然喜欢它偶尔为我做一些无意义的事情。
当我觉得代理在它应该认识到是一个明显问题的事情上浪费了大量计算时,我感到非常恼火。

是的,我认为一些更大的事情就像它下面的东西一样,如果我可以假设的话,从根本上来说这些模型是通过强化学习进行训练的。因此,他们实际上正在努力解决我们刚才谈到的完全相同的问题,即实验室可以在任何可验证的方面改进模型,无论是否有奖励。那么您是否正确编写了程序并进行了单元测试检查?是还是不是?但他们正在苦苦挣扎的一些事情例如,我认为他们在细微差别上度过了一段艰难的时期,也许我的想法是什么或我的意图是什么以及何时提出澄清问题。就像我所说的那样,任何感觉更柔软的东西都会变得更糟。所以你有点像你要么处在可验证的轨道上,成为这套超智能电路的一部分;要么就掉出轨道,进入不可验证的区域,突然间一切都像蜿蜒曲折。也许另一种说法是,如果你今天去喜欢最先进的模型 ChatGPT 并且你要求它告诉我一个笑话,你知道你会得到什么笑话吗?有个笑话。
我确实觉得这个笑话我不能像你知道的标准形式那样告诉你,但我确实觉得ChatGPT有三个笑话。
是的。是的。那么显然他们最喜欢笑的笑话是为什么科学家不相信原子?
好的。
因为他们编造了一切。
好的。
他们编造了一切。所以这是
这是怎么出现的?
所以这是三四年前你会听到的笑话,也是今天你仍然会听到的笑话。
好的。
因此,尽管模型已经有了巨大的改进。
是的。
如果你给他们一项代理任务,他们只会花几个小时为你移山。
然后你问一个笑话,它有一个愚蠢的笑话,一个五年前的蹩脚笑话。这是因为它在 RL 之外。
它不属于强化学习的范畴。它不属于正在改进的范围内。这就像,这是锯齿状的一部分,你不应该期望模型随着它们变得更好,也有更好的笑话或更多样化,或者只是它没有被优化并且被卡住了。
您是否认为这意味着我们没有看到像笑话智能这样更广泛的智能与代码智能相关的泛化。是的,我认为存在一些解耦,有些东西是可验证的,有些东西则不可验证,有些东西是由实验室任意优化的,具体取决于输入的数据,有些则不可验证,

但我的意思是,前提是一些研究小组有一个你知道的前提,如果你在代码生成或在这些可验证的领域更聪明,你应该在所有事情上都做得更好,就像笑话中的情况表明,这种情况并没有发生在所有情况
我不认为这种情况会发生。是的,我不认为这种情况会发生。我想也许我们看到了一点点,但不是令人满意的数量。
是的,这种激动剂存在于人类体内。
你可以非常非常擅长数学,但仍然会讲一个非常糟糕的笑话。
是的,确实如此。是的,但这仍然意味着我们并没有像故事中那样,随着我们获得越来越好的模型,我们可以免费获得社会各个领域的大量情报和能力。从根本上来说,这并不完全是正在发生的事情。并且存在一些盲点,并且有些事情没有得到优化。这一切都聚集在这些神经网络不透明模型中,对吧?所以你要么遵循它所训练的轨道,一切都像你以光速行进,要么你不是。所以它是锯齿状的。所以这就是为什么我认为即使进展很明显应该发生什么,你也不能让它完全实现,因为它没有完全发挥作用,或者这是一个技能问题,我们只是还没有弄清楚如何使用它。所以你知道这很难说。我可以问一个亵渎的问题吗?就像这种锯齿状现象是否持续存在,并且全部都集中在一个至少整体的界面中,但你知道单一模型
这是否有意义,或者您是否应该将其分解为可以针对不同的情况进行优化和改进的东西
情报领域
例如将模型分解为不同领域的多个专家等
更直接的是
相反,我们没有接触过这可能会令人困惑,因为为什么它在这件事上如此擅长,但在其他事情上却不行。

是的,我认为目前我的印象是实验室正在尝试建立一种单一的单一文化模型,该模型在所有这些不同的领域中具有任意智能,并且他们只是将其填充到参数中。我确实认为我们应该期待智能体中出现更多的物种形成。就像你知道的,动物王国的大脑极其多样化,自然界有很多不同的生态位,有些动物有过度发达的视觉皮层或其他部分,我认为我们应该能够看到更多的物种形成,你不需要像这个无所不知的神谕。你对它进行了某种特定,然后你把它放在一个特定的任务上。我们应该看到其中的一些,因为你应该能够拥有更小的模型,它们仍然具有认知核心,就像它们仍然有能力一样,但然后它们专业化,然后它们可以在你真正关心的特定任务的延迟或吞吐量方面变得更加高效,就像你是一名精益工作的数学家一样。例如,我看到有一些版本非常喜欢将其作为域的目标。因此,可能会有一些这样的例子,其中分拆是有意义的。我的一个问题是可用计算基础设施的容量是否受到限制
因为效率,所以推动了更多的工作 是的。实际上更重要,对吧?喜欢你的
如果你把融资放在一边,尽管融资涉及所有这一切,如果你可以对你所做的任何事情进行完整的计算,甚至是一个模型,对吗?但如果你确实感到压力,觉得我无法提供服务
适用于每个用例的大尺寸模型
你认为这会导致任何物种形成吗?这个问题对你来说有意义吗?这个问题是有道理的,我想我是什么我是什么我我正在挣扎的是我认为我们还没有看到太多的物种形成,对吧?
不。
我们看到了模特的单一文化。
是的。
所以
显然有压力要求创建一个好的代码模型,然后将其再次放回主合并中。
是的。是的。尽管模型已经面临压力。
我想也许我觉得有很多非常短期的供应紧缩,这可能会导致现在更多的物种形成。

是的。是的,我认为从根本上来说,实验室正在为模型提供服务,但他们并不真正知道最终用户会问什么。所以也许这就像其中的一部分,因为他们必须同时处理所有可能被问到的问题。但我认为,如果你来到一家企业,也许在你关心的一些具体问题上进行合作,那么也许你会在那里看到这一点。或者会有一些非常高价值的应用程序,就像更利基的应用程序。但我认为现在他们有点像追求现有的全部。我不认为操纵大脑的科学已经完全发展,但还只是部分发展。
你说的操纵是什么意思?
例如,在不丢失功能的情况下进行微调,我们没有这些基元,实际上就像以上下文窗口以外的方式使用智能一样,上下文窗口只是工作,而且操作起来非常便宜等。这就是我们获得一些定制等的方式。但我认为,如果是的话,我认为这更像是一门发展中的科学,关于如何更深入地调整模型,如何持续学习,或者如何在某个区域进行微调,如何在某个区域变得更好,或者喜欢您实际触摸权重的方式,而不仅仅是上下文窗口。因此,我想说,触摸权重比仅触摸上下文窗口要棘手得多。因为你实际上正在从根本上改变整个模型及其潜在的智能。所以,也许这就像不是一门完全发展的科学,如果这有意义的话,物种形成。 A 而且它还必须足够便宜
使该物种在这些给定的情况下有价值
上下文。我可以问一个关于您在开放领域中描述的 AutoResearch 扩展的问题吗?你说好吧你知道我们有这个东西

我们需要更多围绕它的协作表面,本质上是为了让人们为整体研究做出贡献。你能谈谈吗?是的。所以,我们讨论了我们的研究有一个单一的线索,就像我要在循环中尝试一些东西,但从根本上来说,它的并行化就像有趣的组件一样。我想我是想尝试一些想法,但我没有任何像点击这样的东西,就像我还没有一些我非常满意的东西一样,但这是我喜欢在我不工作的时候折腾我的后台代理系统的东西。所以我认为一个问题是,如果你有一堆可用的并行化节点,那么很容易让多个AutoResearch人员通过一个通用系统或类似的系统进行交谈。我更感兴趣的是如何在互联网上拥有一群不受信任的工作人员。
例如,在 AutoResearch 中,您只是想找到将模型训练到非常低的验证损失的代码片段。如果有人给你一个候选提交,那么很容易验证该提交是否正确、是否良好。就像他们一样,有人可以从互联网上声称这段代码将优化得更好,并为您提供更好的性能。您可以非常简单地进行检查,但可能需要做很多工作来进行检查。但从根本上来说,他们可能会撒谎等等。所以你基本上是在处理类似的事情,它几乎实际上看起来有点像我的设计,其中包含不受信任的工作人员池,实际上看起来有点像区块链。因为您不是块,而是提交,并且这些提交可以相互构建,并且在您改进代码时它们包含对代码的类似更改。工作证明基本上就是进行大量的实验来找到有效的提交。
这很难。然后奖励就是现在进入排行榜。没有任何金钱奖励。但我不想把这个类比推得太远,但它从根本上有一个问题,你需要进行大量的搜索,但验证候选解决方案确实很好的成本非常低,因为你可以只训练一个,你知道有人必须尝试 10,000 个想法,但你只需要检查他们产生的东西是否确实有效
因为其中 99,000 个不起作用,你知道的

所以基本上长话短说就像你必须想出一个系统,在这个系统中,不受信任的工作人员池可以与进行验证的受信任的工作人员池进行协作,整个事情有点像异步并且可以工作等等,从安全角度来看它是安全的,因为如果有人向您发送任意代码并且您将运行它,这是非常粗略和狡猾的。所以,但从根本上来说,这应该是完全可能的。所以你熟悉像在家中设置和在家折叠这样的项目,所有这些问题都有类似的设置。因此,在家中折叠蛋白质时,很难找到低能量的构型。但如果有人发现他们认为是完美的低能耗配置,您就可以使用它。你可以很容易地验证它。因此,很多东西都具有这种特性,你知道,提出这种特性非常昂贵,但验证起来却非常便宜,因此在所有这些情况下,像在家折叠或在家 seti 或在家 AutoResearch 等东西都会很合适。因此,长话短说,互联网上的一群代理可以合作改进 LLM,甚至可能像在 Frontier Labs 周围跑圈一样。就像,谁知道,你知道吗?,是的,也许这甚至是可能的。例如,前沿实验室拥有大量的可信计算,但地球要大得多,并且拥有大量的不可信计算。但如果你把系统放在检查系统中,你知道可以处理这个问题,那么也许那里的群体可能会想出更好的更好的解决方案,而人们会为他们关心的事情贡献周期。很抱歉,最后一个想法是,很多公司或者其他什么东西,他们可能拥有自己关心的东西,而你,如果你有计算能力,你可以为不同类型的AutoResearch做出贡献,比如也许你关心某些你知道的事情,比如你关心的癌症或类似的某种类型的东西,你没有,只是向一个你实际上喜欢购买计算的机构捐款,然后你可以加入你知道的那个项目的汽车资源论坛,所以如果所有东西都重新捆绑到其他研究人员中,那么计算就成为了你为池贡献的东西。是的,这非常鼓舞人心。这也很有趣,我不知道这会发展到什么程度,但有趣的是,至少有一些观众,你知道,在硅谷或在你知道的地方排队,
中国的零售商店发现,使用个人电脑再次变得有趣。
是的。
正确的。所以也许他们也许真的有动力为自己的后台代理这样做,然后他们可以为AutoResearch做出贡献。

这几乎就像美元是每个人都关心的东西一样,但是翻牌圈真的是未来每个人都关心的东西吗?就像你关心的事情会发生翻天覆地的变化吗?比如说现在,即使你有钱,也很难获得计算能力。
是的。
所以实际上,从某种意义上说,翻牌圈似乎占据了主导地位。是的。所以也许这有点像你控制了多少次失败,而不是你控制了多少财富?我实际上并不认为这是真的,但思考起来很有趣。
您发布的最后一个内容就像是一些就业数据分析。是这样吗?即使您只是想可视化一些公共数据,但什么和可能触动了您的神经。是的。你知道你对什么感到好奇吗?
是的,我想我很好奇,我的意思是每个人都在真正思考人工智能对就业市场的影响以及将会是什么样子。所以我只是想看看就业市场是什么样的?不同的角色在哪里?以及有多少人从事不同的职业。我真的只是有兴趣查看个别案例,并尝试像你所知道的那样思考自己对这些人工智能的看法,以及它们可能如何发展,就像这些将成为人们正在使用的工具一样?这些是否会取代这些职业的工具,就像当前的职业是什么以及它们将如何改变?他们是否会在很大程度上成长或调整,或者喜欢什么可能是新的职业?所以我想这实际上就像是一种激发我自己对该行业的思考链的方式。中号
所以,是的,就业数据基本上只是劳工统计局的数据,他们实际上对每个职业的百分比前景进行了预测,我认为未来近十年预计会增长多少。
是的,我认为已经有十年了,但它是在 2024 年制作的。
我们需要大量的医疗工作者。

是的。因此,他们已经做出了这些预测,我实际上 100% 不确定他们投入预测的方法是什么。我想,如果人们认为现在主要开发的是更多数字人工智能,就像这些鬼魂或精神实体一样,它们可以在数字世界中交互并操纵很多类似的数字信息,但它们目前并没有真正的物理体现或存在,而物理的东西可能会稍微慢一点,因为你正在操纵原子。因此,翻转翻转位以及复制粘贴数字信息的能力就像使一切都比加速物质快一百万倍,你知道。因此,我认为我们将在数字空间中看到大量的活动,大量的重写,大量的活动沸腾,我认为我们将看到数字空间中以光速进行的事情,与我认为在某种程度上物理世界中将发生的事情(如果是外推的话)相比。因此,我认为目前存在一种悬而未决的情况,可能会出现很多困难,几乎有可能像很多数字信息处理一样,这些处理过去是由计算机和人完成的,而现在人工智能就像第三种数字信息操纵者。这些学科中将会有大量的重构。但在一段时间内,物理世界实际上会像我想象的那样。所以我认为真正让我着迷的是,这就是为什么我强调从根本上操纵数字信息的职业。这是你可以在家里做的工作,因为我觉得事情会发生变化,这并不意味着这些工作会减少或增加,因为这与需求弹性和许多其他因素有关,但这些职业的情况会发生变化,因为这些新工具,因为人类超有机体神经系统的升级,如果你想这样考虑的话。根据您对数据的观察,您对面临就业市场或思考现在要学习什么或要发展哪些技能的人们有什么观察或指导吗?我的意思是,我们都可以像我一样非常感激我现在必须喜欢与工作中的人见面。
更体力。是的。
你能在家做你的工作吗?我可以
我认为其中有些关系部分很难,但大部分我可以。

是的。我认为这真的很难说,因为就业市场极其多样化,我认为答案可能会有所不同,但在很大程度上,这些工具非常新,非常强大,所以只要你知道,努力跟上它就像第一件事,是的,因为我认为很多人都喜欢忽视它或
或者他们害怕它
或者他们害怕它等等,这当然是完全可以理解的。是的,我认为它目前基本上是一种赋权工具。这些工作是一系列任务,其中一些任务可以进行得更快,因此人们应该将其视为现在的主要工具。我认为长期的未来是不确定的。是的,说实话,预测真的很难,而且我并不专业地喜欢这样做,我认为这是经济学家的工作才能正确完成。
不过你是一名工程师。我认为有趣的一件事是,对工程工作的需求正在持续增加。
是的。
我不知道这是否是暂时的现象。我还不确定我对此有何感受。你知道吗?
是的。这就像软件的需求几乎是稀缺的,对吧?因此,我们对软件没有更多需求的原因只是它的稀缺性和太昂贵。
太贵了。是的。
因此,如果障碍降低,那么实际上您就会遇到杰文斯悖论,就像您知道实际上对软件的需求实际上在上升一样。更便宜而且还有更多

强大的。是的。典型的例子总是 ATM 机和银行出纳员,因为很多人担心 ATM 机和计算机基本上会取代出纳员,但发生的情况是,它们使银行分行的运营成本变得更加便宜,因此银行分行的数量也越来越多,因此出纳员也越来越多,就像典型的示例人员网站一样,但基本上这只是悖论,就像某些东西变得更便宜,因此有很多未锁定的需求,所以我确实认为这可能是我确实持谨慎乐观的态度从我所做的软件工程的角度来看,在我看来,对软件的需求将会非常大,而且它会变得更加便宜,所以我确实认为在相当长的一段时间内很难预测,但在我看来,至少在本地,对软件的需求将会更多,因为软件是令人惊奇的,就像你知道数字信息处理一样,你不会被迫使用像给你的任意工具那样在各种方面都不完美,你不会被迫订阅现有的代码现在是短暂的,它可以改变,它可以修改,所以我认为数字空间中将会有很多活动,比如在某种意义上重新连接一切,我认为这将会创造对这类东西的大量需求,我认为长期来看是的,显然即使是 AutoResearch 像 OpenAI、Anthropic 这类实验室,就像他们正在雇用大约一千名研究人员一样
这些研究人员基本上就像你知道的荣耀汽车
他们就像主动地自动化自己,这就像他们都试图做的事情。
是的。
我想我四处走走
其中一些研究人员也感受到了上头,对吧?因为他们可以让它发挥作用。是的。
正确的。所以他们就像哦,我也结束了。
我确实花了很多时间四处张望,我就像你们意识到如果我们成功了,就像我们都失业了一样
就像我们只是为 Sam 或类似的东西构建自动化一样。就像我或董事会一样,我不确定,但就像是为董事会或首席执行官或类似的人建立了这样的自动化,我们都失业了,也许会在侧面做出贡献,所以是的,从这个角度来看,这有点让人紧张
我可以问你诺姆的问题吗
你知道你可以通过大量的计算规模和前沿实验室的一群同事来做正确的事情,比如为什么不呢

好吧,我在那里呆了一段时间,然后我确实重新进入了,所以在某种程度上我同意,我认为有很多方法可以解决这个问题。这是一个有点沉重的问题。我想说的是,我对人们在前沿实验室之外可以做出的影响感到非常满意,显然不是在行业内,而是在生态系统级别的角色中。例如,您的角色更像是生态系统级别。我目前的角色更多地是在生态系统层面上,我对人们在这些角色中可以产生的影响感到非常满意。相反,我认为,我的脑海中确实存在一些问题,因为我基本上也与前沿实验室保持了太多的一致。所以从根本上来说,我的意思是,你对这些前沿实验室有大量的经济激励,并且你自己承认,人工智能将以非常戏剧性的方式真正改变人类和社会,在这里,你基本上就像构建技术并从中受益,就像通过财务手段与它非常结盟一样,这是一个核心的难题,你知道开放是如何开始的,就像我们试图解决的难题一样。中号
所以你知道所以这有点像

这仍然不是难题还没有完全解决。所以这是第一。你不是一个完全自由的代理人,你实际上不能以一种完全自主的自由方式参与对话,就像你在一个前沿实验室里一样,有些事情你不能说。相反,组织希望你说某些事情,你知道他们不会扭转你的手臂,但你会感到压力,就像你应该说的话,你知道,因为显然,否则,这就像非常尴尬的对话,奇怪的眼神,就像你在做什么?你知道,所以你不能真正成为一个独立的代理,而我觉得在某种意义上在前沿实验室之外与人类结盟,因为我几乎不受这些压力的影响,对吗?我不能说任何我想说的话,或者是的,我会说在前沿实验室,就像你当然也可以在那里产生类似的影响。所以,有很多研究人员,也许你就是其中之一,也许你的想法真的很好,等等。也许有很多决策要做,而你希望在这些对话出现时你能在房间里参与其中。我确实认为目前的风险总体上相当低,所以一切都很好,但最终在一天结束时,就像当风险非常高时等等。如果你是一个组织的员工,我实际上不知道你会对组织有多大的影响力,从根本上说,到一天结束时,你并不是真正负责,就像你在一个房间里,你正在贡献想法,但你并不像真正负责你所属的那个实体的一部分。所以我认为在某种程度上这些就像一些失调的来源。我会说,在某种程度上,我确实非常同意我的感受,如果像实验室一样,无论好坏,它们都是不透明的,并且有很多工作要做,它们有点像处于能力和可能性的边缘,他们正在研究即将发生的事情,我认为如果你在前沿实验室之外,你的判断从根本上会开始漂移,因为你不是其中的一部分,你知道接下来会发生什么,所以我感觉我的判断也将不可避免地开始漂移,我实际上不会理解这些系统在幕后是如何实际工作的,这是一个不透明的系统,我不会很好地理解它将如何发展等等。所以我确实认为从这个意义上说我同意,但我对此感到紧张。我认为这基本上是值得的,因为接触实际发生的事情并实际在前沿实验室,如果一些前沿实验室让我来找你,知道一些时间并为他们做真正的工作,然后也许会来

正在找工作。这太令人兴奋了。
是的。
然后我认为这可能是一个很好的设置,因为我觉得这有点像你知道的,也许这就像一种方式
真正与实际发生的事情联系起来,但又不会感觉自己完全被控制
是的。
由这些实体。因此,老实说,我认为像 Noom 这样的人可能可以在 OI 做出非常出色的工作,但我也认为他最有影响力的工作很可能在 OpenAI 之外。
不,这是对AutoResearch成为一名独立研究人员的号召。是的,外面有很多事情要做,这是一个它是一个,我认为最终我认为理想的解决方案可能是来回或者是的,我认为从根本上来说你可以在这两个地方产生真正惊人的影响。非常复杂,我不知道这是一个有点沉重的问题,但我的意思是我加入了前沿实验室,现在我在外面,然后也许将来我会想再次加入,我认为这有点像我的看法。与世界或人工智能生态系统对前沿的可见性相关的一个问题是开源与前沿的距离有多近
以及它的可持续性。我认为是的,我认为这相当
实际上,令人惊讶的整个事件序列是因为拥有一些中国模型和全球模型,我认为人们将在短期内继续在这里发布,从能力的角度来看,这些模型比大多数行业预期的更接近。
我不知道您是否对此感到惊讶,但您是开源的长期贡献者。你的预测是什么?是的。粗略地说,基本上是的,封闭模型领先,但就像人们正在监测开源模型落后的月份数一样。
一开始什么都没有,然后持续了 18 个月,现在是

收敛权。所以也许他们现在落后了,比如最近的八六个月八个月之类的事情。是的,我显然是开源的忠实粉丝。例如,在操作系统中,您就像熟悉的 Windows 和 Mac OS 一样封闭。这些都是大型软件项目,就像 LM 将要发展的那样,有 Linux,但 Linux 非常简单,实际上 Linux 是一个非常成功的项目,它运行在绝大多数计算机上,就像我上次检查的那样,是 60% 或类似运行 Linux 的计算机,这是因为行业需要一个通用的开放平台,每个人都觉得可以安全使用,我想说的是,行业一直觉得存在这种项目的需求,我认为现在也是如此,这就是企业真正想要的原因这种东西存在需求,最大的区别就是一切都是资本。这涉及很多资本支出。
所以我认为这就是像崩溃这样的事情在某种意义上让竞争变得更加困难的地方。我确实认为当前的模型非常好。我认为真正有趣的另一件事是,对于绝大多数类似的消费者用例和类似的东西,即使是术语开源模型实际上也相当不错,我认为,如果你再继续下去,这似乎确实意味着大量类似的简单用例将得到很好的覆盖,甚至可以在本地运行。但是总会有一些对前沿情报的需求,而这实际上可能是蛋糕中的很大一部分。但前沿智能的需求可能会像诺贝尔奖之类的工作,或者让我们将 Linux 从 C 转移到 Rust。你知道,将会有更大的项目,比如以这种方式确定范围。也许会有更多,也许这就是许多前沿封闭智能将要与之交互的地方,而开源有点像要吞噬许多更基本的用例或类似的东西。你知道在某个时候,今天的前沿将会是你知道的,可能今年晚些时候,就我现在在封闭实验室使用的东西而言,今天的前沿可能是开源的,这将需要做很多工作。因此,我预计这种动态基本上会继续下去,就像我们将拥有关闭 AIS 的 Frontier Labs,就像这些预言机一样,然后我们将在几个月后推出类似于开源的东西,我预计这种情况会继续下去,我实际上认为这总体上是一个相当不错的设置。

因为我对拥有它有点犹豫,我实际上不认为它在结构上是这样的,我认为仅仅拥有封闭的智能会带来一些系统性风险,就是这样。嗯。
我认为,在我看来,集中化在过去的记录非常糟糕,并且已经
你的意思是一般的政治或经济体系。
是的。
确切地。我认为有很多
像东欧。是的。
很多非常糟糕的总统。所以我希望有一个东西可能不在能力的边缘,因为它是新的和未经探索的等。但我希望有一个东西在后面,有点像整个行业都可以访问的情报的公共工作空间。是的,在我看来,这个行业的权力平衡相当不错。
是的,我也认为有很多问题需要解决,对吗?就像如果你不断推进前沿情报,我们就可以做新的事情,人类会遇到很多类似的非常大的问题,对吗?看来这仍将是一款非常昂贵的游戏。因此,我想支持正在这样做的实验室,因为如果不继续以非常昂贵的方式推进模型,我们就无法解决一些问题。是的。然而,正如你所指出的,就像
如果我们今天所拥有的 Frontier 是开放的,那就有很多能力。是的。正确的。所以我想你知道它的力量或者它的民主化看起来像
非常有用而且也健康。
是的。我认为基本上是偶然的,我们实际上处于不错的位置
和最优的。是的。
从某种意义上说,我们碰巧处于一个有利的位置。
好吧,在某种程度上,这种动态持续的时间越长
像生态系统这样更健康的地方可能是正确的,因为曲线下的区域越来越多

我想说的是,即使在接近的一方,我也几乎觉得最近进一步集中化,因为我认为很多领先者不一定像顶级球队,所以是的,从这个意义上说,我认为这不是超级理想。我希望有更多的从前到后的内容,因为是的,我默认非常怀疑我希望房间里有更多的人。我希望我认为在机器学习中,集成总是胜过任何单独的模型,所以我希望有一群人思考所有最困难的问题,我希望房间里有一群人,当他们都充分了解情况并做出你知道的所有决定时,所以我不希望它就像一个由两个人或三个人关上的门。我觉得这不是一个好的未来。我几乎希望有更多的实验室,长话短说,我确实认为开源有一个发挥作用的地方。我希望它能坚持下去,我基本上它目前稍微落后了,这实际上是一件好事。
好的。您致力于汽车通用机器人自主技术的先驱,对吧?在过去的几个月里,机器人公司发生了很多事情,比如加速了任务环境的真正令人印象深刻的通用化,比如增加长期任务,大量资金进入这个领域,就像它会发生吗?您的看法最近有什么变化吗?
因此,我的观点是根据我在自动驾驶中看到的情况得出的,我确实觉得自动驾驶是第一个机器人应用程序。所以我所看到的可能是 10 年前,有大量的初创公司,我觉得他们中的大多数基本上都没有长期成功。我看到的是,需要投入大量的资本支出和大量的时间,所以我认为这就像我认为机器人技术一样,因为它是如此困难和混乱,需要大量的资本投资和很多类似的信念,这就像一个大问题,我认为项目真的很难。所以我觉得他们会落后,因为它将落后于数字空间中将要发生的事情,而在数字空间中,将会出现大量的混乱,基本上就像那些效率不高的事情变得更加高效,大约是 100 倍。

因为比特太容易了,所以我认为目前就将要发生的变化以及活动所在的位置而言,我感觉数字空间将会发生巨大的变化,然后物理空间将落后,我发现非常有趣的是它们之间的界面,因为我认为在这方面,如果我们确实有更多的代理代表人类行事,更多的代理类似于彼此交谈、执行任务和参与代理经济等。您将纯粹在数字空间中进行操作。在某些时候,你必须去宇宙,你必须问它问题。你必须进行一个实验,看看宇宙告诉你什么,然后才能回来学习一些东西。因此,我们目前有大量类似的数字化工作,因为我们对已经数字化的东西的集体思考存在着悬而未决的问题。因此,我们人类没有足够的思维周期来思考所有已经数字化并已上传的信息。因此,我们将开始用完实际上已经上传的内容。因此,您将在某个时候阅读所有论文并对其进行处理,并对要尝试的内容有一些想法。但是,是的,我们只是要我实际上不知道你有多喜欢获得完全封闭的情报,并且只有可用的信息,你知道。所以我认为接下来会发生的事情是首先会有大量的解除束缚,我认为那里有大量的工作。然后实际上它将转向物理和数字之间的接口。这就像传感器可以看到世界,而执行器可以对世界做一些事情。所以我认为很多有趣的公司实际上会来自这样的界面,比如我们可以在某种意义上提供超级智能数据吗?如果你想将整个事情正确地互化,那么我们是否真的可以按照其出价取出数据并操纵物理世界,然后物理世界实际上我几乎感觉整个可寻址市场等在工作量等方面是巨大的,可能甚至更大,也许在数字空间中可能发生的事情,所以我实际上认为这也是一个更大的机会,但我确实这样做感觉这是一项巨大的工作量,而且在我看来,原子的硬度就像一百万倍。所以它会落后,但我认为这也是一个更大的市场。所以这有点像是的,我认为机会有点像遵循这种轨迹。所以现在这个数字就像我的主要兴趣,然后界面会像之后的样子,然后可能像一些物理的东西,比如它们的时代将会到来,当它们真正到来时它们将是巨大的。出色地,

这也是一个有趣的框架,因为某些事情不是我现在正在研究的事情,但某些事情即使在原子世界中也容易得多,就像如果你只是想像读取和写入物理世界一样像传感器相机一样读取有很多现有的硬件,你可以想象像
丰富代理功能或捕获大量新数据(如果您足够聪明)并且您不一定需要投入大量资金才能获得有价值的东西。
是的。就像我看到的这样的例子,例如,你知道我的一个朋友利亚姆(Liam)正在经营的是期刊的首席执行官,我上周拜访了他们,所以这只是我的首要考虑,就像他们正在尝试为材料科学做AutoResearch一样
因此,在这种情况下,智能传感器实际上就像非常昂贵的实验室设备,生物学中也是如此。我认为很多人对工程生物学非常感兴趣,并且你知道传感器将不仅仅是像摄像机一样,如果这是有意义的。然后我看到的另一件事是,例如,一些公司试图让像你这样的公司基本上向人们支付培训数据的费用。是的。以喂食为例
以编程方式。
是的。喂养博格。从某种意义上来说,这些都是类似传感器的例子。因此,如果有意义的话,它们会采取多种不同的形状和形式。
是的。所以我期待着有一天我可以在现实世界中请求一项任务,我可以为其定价,然后告诉代理,就像你知道你知道如何去做一样。去获取数据。
事实上,我有点惊讶我们没有足够的信息市场。嗯。
例如,如果保利市场或其他博彩市场甚至股票等,如果它们有如此多的自主活动并且活动量不断增加
例如,如果伊朗现在刚刚发生,为什么没有一个过程,从谭某处拍摄照片或视频应该花费 10 美元,就像有人应该能够支付你知道的那样,这是一个像提供情报的例子,不会有人看着它,它会像代理人试图猜测博彩游戏和股票市场等等。中号
所以我觉得代理网络仍然是相当新的,没有类似的机制,但这就是我认为可能发生的一个例子,有一本好书,可能会鼓舞人心,叫做恶魔,你可能会在达蒙那里读到它,智能最终就像木偶操纵,在某种意义上你知道,几乎有点像人类,所以人类有点像它的执行器,但人类也像它的传感器

所以我认为,就像集体一样,社会会以某种方式重塑,以服务于这种类型,最终会在整个行业集体发生,是的,会有更多的自动化,并且有一定的需求,人类会满足机器的需求,但不一定彼此喜欢
好吧,我们在这个非常具体的问题上,比如缺少我们需要的训练数据,我们需要像 AutoResearch 这样的东西,就像我们需要训练周期或 SFT 部分更加机械化一样
用于什么部分
为了让集合就像为了让人类脱离循环来要求一个任务,就像提高我的模型质量一样
有了新数据,
对吗?
是的。
这对你来说有意义吗?就像我们一样,如果你不能让模型自己进行训练,
那么你有能力将其作为类似的闭环任务来完成,是的。通过定价数据与您联系 是的。
更具挑战性。
是的。是的。 100%。是的。但现在的问题是 LLM 培训实际上非常容易,它确实符合范式。
所以你实际上会
是的,干净的指标
是的,就像 LM 训练实际上非常适合这个范式,非常容易,就像所有代码的所有优化一样,所以它运行得更快,然后你也有可以优化的类似指标。我确实认为,如果你对这些指标有一个自主循环,那么系统会喜欢对这些指标进行过度拟合,那么就会有很多类似的良好的努力,所以但是你可以使用系统来设计更多的指标,并且你会有很好的覆盖范围。所以这有点很难说,但从某种意义上说,它非常适合。
在我们结束之前,我想谈谈你的一个小项目。告诉我有关微型 GPTR 的信息。
哦,是的。好的。所以微型 GPT。所以我痴迷了大约十年或两年,就像简化和简化基本上的LLM以喜欢它们的本质。我已经完成了许多类似的项目。因此,就像纳米 GPT 一样,制造更多微 GP 微拉德等。所以我觉得微 GPT 现在是最先进的,我试图将其归结为本质,因为这就像训练神经网络和 LLM,特别是它是大量的代码,但所有这些代码实际上都是效率的复杂性。

只是因为您需要它快速运行。如果你不需要它跑得快,而你只关心算法,那么该算法实际上是 200 行 Python 代码,非常容易阅读,其中包括注释和所有内容。因为你只有文本数据集,并且需要 50 行左右的神经网络架构。您需要进行前向传播,然后必须进行反向传播来计算梯度。因此,一个用于计算梯度的小型 autograd 引擎就像 100 行,然后您需要一个优化器,例如一个原子,这是一个非常先进的优化器,实际上又像 10 行。因此,将所有内容放在一个训练循环中就像 200 行一样。这对我来说很有趣,就像以前一样,大约一年前或更长时间,如果我想出了微型 GPT,我会很想基本上向人们解释,就像我有一个视频,比如逐步浏览它或类似的东西。我实际上试着制作了一段视频,我试图制作一个小指南等等,但我意识到这并不是真的,它并没有真正添加太多,因为人们因为它已经很简单了,它有 200 行,任何人都可以要求他们的经纪人以各种方式解释它,而像我这样的经纪人不再向人们解释了。我正在向代理人解释。如果你可以向代理解释它,那么代理就可以成为路由器,他们实际上可以用他们的语言以无限的耐心和能力将其定位到人类,等等。
正确的。如果我不明白这个特定的功能,我可以要求代理以三种不同的方式向我解释它,但我不会从你那里得到它。
确切地。

所以我觉得你知道什么是教育吗?就像过去是指南,过去是讲座,过去是这个东西,但我觉得现在更多的是我在向代理解释事情,也许我正在想出技能,基本上技能只是指导代理如何教授内容的一种方式。所以也许我可以掌握微 GPT 的进展技能,我想如果你有兴趣理解代码库,代理应该带你完成,这就像模型的提示一样,哦,首先从这个开始,然后从那个开始,所以我可以将课程编写一点点作为一项技能。,所以,所以我不觉得,是的,我觉得直接向人们解释事情会更少,而且会更多,就像代理收到了吗?如果代理收到,他们会做出解释。我们还没有完全做到这一点,因为我仍然可以,我仍然认为我可能可以比代理更好地解释事情,但我仍然觉得模型改进得如此之快,以至于我觉得在某种程度上这是一场失败的战斗。所以我认为教育将会因此而被彻底重新洗牌,这是互相教导的结束,有点像如果我有一个代码库,或者类似的东西,过去你为我的用户库中的其他人提供文档,但你不应该再这样做了,而不是为人类提供 HTML 文档,你为代理提供 Markdown 文档,因为如果代理得到它,他们就可以解释它的所有不同部分。所以这是通过代理进行的重定向,你知道,就像这样,所以我认为我们会看到更多这样的事情发生。
好吧,我们将看看伟大的老师是否愿意培养直觉,以了解如何以不同的方式向代理解释事物。
最终,例如,像我问的那样的微型 GPT,我试图找一个代理来编写微型 GPT。所以我告诉它,就像尝试将最简单的事情归结为神经网络一样,尝试将最简单的事情归结为最简单的事情,但做不到。就像微型 GPT 就像我的一样,它就像我的痴迷的终结。就是200行。我想了很长时间。我为此着迷了很长一段时间。这就是这就是解决方案。相信我,事情再简单不过了。这就是我的价值广告。其他一切都像代理一样得到它。

它就是想不出来,但它其实完全理解,也明白为什么某件事要那样做。所以我真正能贡献的,可能就是其中少数几个部分;而其他部分,比如后续的教学与表达,就未必还是我的领域了。所以也许教育也会发生类似变化:你得把那些你对课程真正有强烈判断的部分、你认为最好的解释方式,主动注入进去。代理做不到的事情,现在才是你的工作;而代理能做到的事情,它们很快也许就会做得比你更好。所以你得对自己真正花时间的地方更有策略。
好,非常感谢你,Andrej。
好的。
欢迎在 Twitter/X 上关注 No Priors;如果你想看到视频版,也可以订阅他们的 YouTube 频道。你还可以在 Apple Podcasts、Spotify,或者任何你平时收听播客的平台关注这个节目,这样每周都会收到新一期。也可以去 no-priors.com 注册邮件,或者查看每一期的文字稿。