Anthropic 关于“模型蒸馏攻击”的指控是否站得住脚?

近日,AI 领域的知名头部企业 Anthropic 发布了一项极具争议的声明。他们声称,来自中国的三家主要 AI 实验室(DeepSeek、Moonshot 和 MiniMax)正在对 Anthropic 的模型进行“蒸馏攻击”(Distillation Attacks)。

根据 Anthropic 的报告,这些机构利用超过 24,000 个欺诈账户,生成了超过 1600 万次交互(Exchanges),试图提取 Claude 模型的底层能力,并将其用于自身的模型训练中。然而,如果我们从技术开发者、API 运作机制以及行业基准测试的角度来深入审视这些数据和逻辑,会发现这项指控存在诸多值得商榷的漏洞。

1. 什么是“蒸馏攻击”?

在探讨指控之前,我们需要厘清“蒸馏”(Distillation)在机器学习中的含义。传统的模型蒸馏是指通过向更聪明、更庞大的模型输入提示词,获取其高质量的输出数据,并利用这些数据来训练一个体积更小、成本更低的新模型,使其具备类似的能力。这在行业内是一种非常常见的技术手段,例如编程辅助工具 Cursor 就会在合法支付 API 费用的前提下,利用生成的数据来训练自身更轻量级的代码模型。

“蒸馏攻击”则是 Anthropic 提出的一个新词汇。目前各大实验室对蒸馏行为十分警惕。例如,OpenAI 认为 DeepSeek 曾使用其 o1 模型的数据来训练 R1 模型,因此 OpenAI 决定隐藏 o1 模型的“推理过程”(Reasoning Trace),仅输出最终结果。相反,Anthropic 在最初推出具备推理能力的模型时,并没有选择混淆或隐藏这些推理步骤。这虽然方便了开发者进行系统调试,但也使得他们的数据对于试图进行强化学习和蒸馏训练的机构来说更具价值。

2. 核心数据推敲:“交互次数”的计算陷阱

Anthropic 在报告中列举了针对各家实验室的具体“罪证”数据,但从技术常识来看,这些数据量级不仅不庞大,甚至可以说是微不足道:

  • DeepSeek:被指控进行了约 150,000 次交互。
  • Moonshot (月之暗面):被指控进行了约 340 万次交互。
  • MiniMax:被指控进行了约 1300 万次交互。

工具调用(Tool Calls)对请求量的放大效应

理解这些数字的关键在于 Anthropic 对“交互(Exchange)”的定义。在现代 Agent(智能体)应用中,工具调用(Tool Calls)会导致单次用户请求被放大为数十甚至上百次交互。

当一个模型被要求执行复杂的任务(如“更新主页代码以包含新定价”)时,工作流如下:

  1. 模型请求搜索相关文件(第 1 次交互结束,连接断开)。
  2. 系统运行搜索后,将完整的历史记录和结果发回给模型(第 2 次交互)。
  3. 模型请求读取特定的几个文件(第 3 次交互)。
  4. 系统返回文件内容,模型最终生成代码修改建议(第 4 次及后续交互)。

如果启用了多重搜索或复杂的代码库分析,一次简单的用户 Prompt 很容易转化为上百次连续的“交互”。

结合基准测试与实际产品的分析

  • DeepSeek 的 15 万次交互:对于一个中小型 AI 聊天应用来说,一天产生 16 万次请求是非常基础的数据。如果用于运行常规的模型基准测试(Benchmark,如 SnitchBench),15 万次交互仅仅足够完整运行 2 到 3 次测试而已。所有实验室都需要频繁运行竞品的 API 以校准自己的内部基准。
  • Moonshot 和 MiniMax 的百万级交互:以著名的编程基准测试 SWE-bench 为例,该测试包含约 2,300 个任务。如果在测试中赋予模型工具调用能力,保守估计每个任务产生 50 次工具调用交互,那么跑完单次 SWE-bench 就需要 115,000 次交互。仅仅运行 30 轮基准测试,就能轻松达到 340 万次交互的量级。
  • 合法产品侧的消耗:MiniMax 曾经拥有面向用户的 Agent 产品(如集成了 Gemini 和其他第三方模型的服务)。如果这些产品需要执行深度研究和多次数据检索,1300 万次交互在正常面向用户的商业应用中是一个非常容易触达的数字。

此外,Anthropic 提到当他们发布新模型时,MiniMax 在 24 小时内将近一半的流量重定向到了新模型。这其实是极度符合常理的用户行为逻辑——当 UI 界面出现最新旗舰模型的切换按钮时,绝大多数真实用户的流量会自然而然地迅速向新模型倾斜。

3. 安全逻辑的悖论与开源恐慌

Anthropic 声称,通过非法蒸馏构建的模型会剥离原始模型的安全护栏,从而带来国家安全风险(例如被用于开发生物武器)。

这一说法在逻辑上存在明显的悖论:如果 Anthropic 自家的模型安全机制真的有效,它就应该从源头上拒绝生成关于生物武器的知识。如果基础模型已经拒绝了恶意请求,攻击者又如何能通过输入提示词来“蒸馏”出模型本就不输出的危险能力呢?

此外,Anthropic 在报告中显露出了对“开源/开放权重(Open-weight)”模型的强烈排斥,暗示开源蒸馏模型会让风险失控。值得一提的是,Anthropic 是目前唯一一家没有发布过任何开源权重模型的主流实验室(OpenAI、Google 及众多中国实验室均有开源模型发布)。讽刺的是,有证据表明 Anthropic 自己在训练中也使用了 DeepSeek 在 2024 年公开发表的技术论文中发明的训练方法。

4. 代理集群(Hydra-clusters)的真相

报告中唯一相对可信的客观现象是:中国确实存在大量使用商业代理服务和“九头蛇集群(Hydra-cluster)”架构来高频访问 Claude 模型的行为。

这背后的根本原因其实是 Anthropic 对中国地区实施了严格的区域封锁和访问限制。为了绕过限制,一些第三方代理商通过注册海量账号来分流请求,甚至通过提供廉价的 Claude 代理接口来汇聚数据,进而训练自己的小型模型以补贴代理成本。虽然这种行为客观存在,但将其直接归咎于 DeepSeek 等头部 AI 实验室的官方组织行为,不仅缺乏确凿的证据,其披露的微小数据量也无法支撑这一宏大的指控。

Anthropic 给出的一段据称是用于蒸馏的“典型提示词”证据,其内容要求模型扮演“专家数据分析师”,并“提供基于真实数据和透明推理的洞察”。从技术角度看,这完全就是一个标准且合法的研究型 Agent 的系统提示词(System Prompt),很难单凭这一点将其定性为恶意的蒸馏攻击。

5. 结语:模糊的边界与双重标准

整起事件暴露了 AI 行业当前面临的深层矛盾。Anthropic 和 OpenAI 等公司的庞大模型,其初始训练数据本身就是通过大规模抓取互联网上的公开内容(甚至包含版权内容)得来的。正是这些大公司的抓取行为,导致如今的互联网数据变得越来越封闭。

然而,当其他公司试图利用这些模型的输出数据时,却被立刻贴上了“非法提取”和“攻击”的标签。在 Terms of Service(服务条款)界定极为模糊的当下——例如,抓取包含了 Claude 生成代码的公开 GitHub 仓库是否算作“蒸馏”?——这种单方面的封杀和缺乏数据支撑的指控,比起出于安全考量,更像是一种基于商业竞争焦虑的公关行为。