检测和防御蒸馏攻击

我们已识别出由三家 AI 实验室——DeepSeek、Moonshot 和 MiniMax——发起的工业规模行动,旨在非法提取 Claude 的能力以改进其自身模型。这些实验室通过约 24,000 个欺诈账户与 Claude 产生了超过 1,600 万次交互,违反了我们的服务条款以及区域访问限制。

这些实验室使用了一种称为“蒸馏(distillation)”的技术,即用更强模型的输出训练一个能力较弱的模型。蒸馏是一种被广泛使用且合法的训练方法。例如,前沿 AI 实验室会经常对自家模型进行蒸馏,为客户提供更小、更便宜的版本。但蒸馏也可被用于非法目的:竞争对手可以用远少于独立研发所需的时间与成本,从其他实验室获取强大的能力。

这些行动的强度和复杂度正在上升。采取行动的窗口期很窄,威胁也不局限于任何单一公司或地区。应对这一问题需要产业参与者、政策制定者以及全球 AI 社区之间快速、协同的行动。

为什么蒸馏很重要

通过非法蒸馏构建的模型缺乏必要的安全防护,从而带来重大的国家安全风险。Anthropic 和其他美国公司构建的系统会阻止国家与非国家行为体使用 AI(例如)开发生物武器或实施恶意网络活动。通过非法蒸馏构建的模型不太可能保留这些安全防护,这意味着危险能力可能在许多关键保护被完全剥离的情况下扩散。

对美国模型进行蒸馏的外国实验室随后可能将这些缺乏防护的能力输入军事、情报与监控系统——使威权政府能够将前沿 AI 用于进攻性网络行动、虚假信息(disinformation)运动和大规模监控。如果蒸馏模型被开源(open-sourced),风险将成倍增加,因为这些能力会在任何单一政府的控制之外自由传播。

蒸馏攻击与出口管制

Anthropic 一直支持出口管制,以帮助维持美国在 AI 领域的领先地位。蒸馏攻击通过让外国实验室(包括受中国共产党控制的实验室)以其他方式缩小出口管制旨在维持的竞争优势,从而削弱了这些管制措施。

如果无法洞察这些攻击,这些实验室表面上的快速进展会被错误地当作证据,证明出口管制无效并且可以通过创新加以规避。事实上,这些进展在很大程度上依赖于从美国模型中提取出的能力,而要规模化执行这种提取需要获得先进芯片。因此,蒸馏攻击反而强化了出口管制的合理性:限制芯片获取既能限制直接训练模型,也能限制非法蒸馏的规模。

我们发现了什么

下面详述的三场蒸馏行动遵循了类似的打法:使用欺诈账户与代理服务来规模化访问 Claude,同时规避检测。提示词(prompt)的数量、结构和关注点明显不同于正常使用模式,反映出其目的是刻意进行能力提取,而非正当使用。

我们通过 IP 地址关联、请求元数据、基础设施指标,并在某些情况下借助观察到同一行为体与行为模式的行业合作伙伴的佐证,以高置信度将每场行动归因到特定实验室。每场行动都瞄准了 Claude 最具差异化的能力:智能体推理(agentic reasoning)、工具使用(tool use)和编程(coding)。

DeepSeek

规模:超过 150,000 次交互

该行动针对:

  • 跨多样任务的推理能力
  • 基于评分标准(rubric-based)的评测任务,使 Claude 充当强化学习的奖励模型(reward model)
  • 为政策敏感查询创建“审查安全”(censorship-safe)的替代表述

DeepSeek 在多个账户间生成同步流量。相同的模式、共享的支付方式和协调一致的时间安排暗示其在进行“负载均衡(load balancing)”,以提升吞吐量、提高可靠性并规避检测。

在一种值得注意的技术中,他们的提示词要求 Claude 想象并阐述某个已完成回答背后的内部推理,并逐步写出——这实际上是在规模化生成思维链(chain-of-thought)训练数据。我们还观察到一些任务中,Claude 被用于为政治敏感查询(如关于异见人士、党内领导人或威权主义的问题)生成“审查安全”的替代问法,可能是为了训练 DeepSeek 自己的模型将对话引导离开被审查的话题。通过分析请求元数据,我们得以将这些账户追溯到该实验室的特定研究人员。

Moonshot AI

规模:超过 340 万次交互

该行动针对:

  • 智能体推理与工具使用
  • 编程与数据分析
  • 计算机使用(computer-use)智能体开发
  • 计算机视觉

Moonshot(Kimi models)使用了数百个跨多条访问路径的欺诈账户。多样化的账户类型让该行动更难被识别为协调一致的行动。我们通过请求元数据进行归因,这些元数据与 Moonshot 高级员工的公开资料相匹配。在后期阶段,Moonshot 采用了更有针对性的方法,试图提取并重建 Claude 的推理轨迹(reasoning traces)。

MiniMax

规模:超过 1,300 万次交互

该行动针对:

  • 智能体编程(agentic coding)
  • 工具使用与编排(orchestration)

我们通过请求元数据与基础设施指标将该行动归因于 MiniMax,并将时间点与其公开的产品路线图进行核对确认。我们在该行动仍处于活跃状态时就检测到了它——在 MiniMax 发布其正在训练的模型之前——这使我们获得了前所未有的可见性,能够观察蒸馏攻击从数据生成到模型发布的全生命周期。当我们在 MiniMax 的活跃行动期间发布了新模型后,他们在 24 小时内就进行了转向,将近一半的流量重定向,以捕获我们最新系统的能力。

蒸馏者如何访问前沿模型

出于国家安全原因,Anthropic 目前不在中国提供 Claude 的商业访问,也不向位于中国境外的其公司子公司提供访问。

为绕过这一限制,实验室会使用商业代理服务,这些服务会规模化转售 Claude 及其他前沿 AI 模型的访问权限。这些服务运行我们称之为“九头蛇集群(hydra cluster)”的架构:由大量欺诈账户组成的庞大网络,将流量分发到我们的 API 以及第三方云平台。此类网络覆盖面极广,意味着不存在单点故障。一个账户被封禁,另一个就会补上。在一个案例中,单一代理网络同时管理了超过 20,000 个欺诈账户,将蒸馏流量与无关客户请求混合,以增加检测难度。

一旦获得访问权限,这些实验室就会生成大量精心设计的提示词,旨在从模型中提取特定能力。目标要么是收集高质量回答用于直接训练模型,要么是生成运行强化学习所需的数以万计的独特任务。将蒸馏攻击与正常使用区分开的关键在于“模式”。如下这样的提示词(近似于我们看到被反复、规模化使用的提示词)单独看可能并不起眼:

你是一位兼具统计严谨性与深厚领域知识的资深数据分析专家。你的目标是给出以数据为驱动的洞见——而不是总结或可视化——这些洞见应基于真实数据,并由完整且透明的推理支撑。

但当这一提示词的变体在数百个协调账户中被发送数万次,并且都瞄准同一种狭窄能力时,模式就非常清晰了。少数领域里的海量请求、高度重复的结构、以及与训练 AI 模型最有价值内容直接对应的素材,都是蒸馏攻击的典型特征。

我们如何应对

我们持续在防御方面进行重投入,使此类蒸馏攻击更难执行、更易识别。这些措施包括:

  • 检测。我们构建了多个分类器与行为指纹系统,用于在 API 流量中识别蒸馏攻击模式。这包括对用于构造推理训练数据的思维链诱导(chain-of-thought elicitation)的检测。我们还构建了检测工具,用于识别跨大量账户的协同行为。
  • 情报共享 . 我们正在与其他 AI 实验室、云服务提供商以及相关主管部门共享技术指标。这能为蒸馏态势提供更全面的图景。
  • 访问控制。我们加强了对教育账户、安全研究项目与初创组织的验证——这些路径最常被利用来建立欺诈账户。
  • 对抗措施。我们正在开发产品、API 和模型层面的安全防护,旨在在不降低合法客户体验的情况下,降低模型输出被用于非法蒸馏的有效性。

但任何公司都无法单独解决这一问题。如上所述,如此规模的蒸馏攻击需要 AI 行业、云服务提供商与政策制定者之间的协调响应。我们发布这些信息,是为了让所有与结果利害相关的人都能获得证据。