蒸留攻撃の検出と防止

私たちは、3つのAI研究所—DeepSeek、Moonshot、MiniMax—が、自社モデルを改善するためにClaudeの能力を不正に抽出しようとする産業規模のキャンペーンを行っていることを特定しました。これらの研究所は、当社の利用規約および地域別アクセス制限に違反し、約24,000の不正アカウントを通じてClaudeと1,600万回超のやり取りを生成しました。

これらの研究所は「蒸留(distillation)」と呼ばれる手法を用いました。これは、より強力なモデルの出力で、能力の劣るモデルを学習させるものです。蒸留は広く用いられる正当な学習手法です。たとえば、最先端AIラボは、顧客向けにより小さく安価な版を作るため、自社モデルを日常的に蒸留しています。しかし蒸留は不正目的にも利用され得ます。競合他社が、他社ラボの強力な能力を、独自に開発する場合に比べてごく短時間かつ低コストで獲得できてしまうのです。

これらのキャンペーンは強度と高度化の両面で拡大しています。行動できる猶予は限られており、脅威は単一の企業や地域にとどまりません。対処には、業界関係者、政策立案者、そしてグローバルAIコミュニティによる迅速で協調的な行動が必要です。

蒸留が重要な理由

不正に蒸留されたモデルには必要な安全対策が欠けており、重大な国家安全保障上のリスクを生みます。Anthropicおよび他の米国企業は、国家・非国家主体がAIを用いて、たとえば生物兵器を開発したり悪意あるサイバー活動を実行したりすることを防ぐシステムを構築しています。不正な蒸留によって作られたモデルは、そうした安全対策を保持していない可能性が高く、危険な能力が、保護が大幅に取り除かれた状態で拡散し得ます。

米国のモデルを蒸留する海外ラボは、その無防備な能力を軍事、情報、監視システムに取り込むことができます—権威主義政府が最先端AIを攻撃的サイバー作戦、偽情報キャンペーン、そして大規模監視に投入することを可能にします。蒸留モデルがオープンソース化されれば、このリスクはさらに増幅し、これらの能力が単一政府の管理を超えて自由に拡散します。

蒸留攻撃と輸出規制

Anthropicは、米国のAIにおける優位性を維持するための輸出規制を一貫して支持してきました。蒸留攻撃は、(中国共産党の統制下にある主体を含む)海外ラボが、輸出規制が維持しようとしている競争優位を別の手段で埋めてしまうことで、これらの規制を損ないます。

これらの攻撃が可視化されていないと、当該ラボによる一見急速な進歩が、輸出規制が無効で、イノベーションによって回避可能であることの証拠として誤って受け取られます。実際には、これらの進歩は米国モデルから抽出された能力に大きく依存しており、この抽出を大規模に実行するには先端チップへのアクセスが必要です。したがって蒸留攻撃は輸出規制の根拠をむしろ補強します。チップへのアクセス制限は、直接のモデル学習と不正蒸留の規模の双方を制約するからです。

判明したこと

以下に詳述する3つの蒸留キャンペーンは、同様の手口に従っていました。不正アカウントとプロキシ(代理)サービスを用いて、検知を回避しながらClaudeへ大規模にアクセスしていました。プロンプトの量、構造、焦点は通常の利用パターンとは明確に異なり、正当な利用ではなく、意図的な能力抽出を反映していました。

私たちは、IPアドレスの相関、リクエストのメタデータ、インフラ指標、そして一部では同じ行為者と行動を自社プラットフォーム上で観測した業界パートナーからの裏付けにより、それぞれのキャンペーンを特定のラボに高い確度で帰属させました。各キャンペーンは、Claudeの最も差別化された能力—エージェント的推論(agentic reasoning)、ツール使用、コーディング—を標的にしていました。

DeepSeek

規模:15万回超のやり取り

この作戦の標的:

  • 多様なタスクにわたる推論能力
  • 強化学習における報酬モデルとしてClaudeを機能させる、ルーブリック(rubric)に基づく採点タスク
  • ポリシー上センシティブな質問に対する検閲回避(censorship-safe)の代替案の作成

DeepSeekは、複数アカウントにまたがって同期したトラフィックを生成しました。同一のパターン、共有された支払い手段、協調したタイミングは、スループットを増やし、信頼性を高め、検知を回避するための「ロードバランシング(load balancing)」を示唆していました。

注目すべき手法の一つとして、プロンプトがClaudeに対し、完成した回答の背後にある内部推論を想像して明確化し、それを段階的に書き出すよう求めていました—事実上、チェーン・オブ・ソート(chain-of-thought)学習データを大規模に生成するものです。また、反体制派、党指導者、権威主義といった政治的にセンシティブな話題に関する質問に対して、検閲回避の代替案を生成させるタスクも観測しました。これはおそらく、DeepSeek自身のモデルが検閲対象の話題から会話を逸らすよう誘導するための学習に用いられたと考えられます。リクエストのメタデータを精査することで、私たちはこれらのアカウントをラボ内の特定研究者にまで追跡できました。

Moonshot AI

規模:340万回超のやり取り

この作戦の標的:

  • エージェント的推論(agentic reasoning)とツール使用
  • コーディングとデータ分析
  • コンピュータ利用エージェントの開発
  • コンピュータビジョン

Moonshot(Kimiモデル)は、複数のアクセス経路にまたがる数百の不正アカウントを用いました。多様なアカウント種別により、協調作戦としての検知がより困難になっていました。私たちは、リクエストのメタデータがMoonshot上級スタッフの公開プロフィールと一致したことから、このキャンペーンを帰属させました。後期フェーズでは、Moonshotはより標的を絞った手法を用い、Claudeの推論トレース(reasoning traces)の抽出と再構成を試みました。

MiniMax

規模:1,300万回超のやり取り

この作戦の標的:

  • エージェント的コーディング(agentic coding)
  • ツール使用とオーケストレーション

私たちは、リクエストのメタデータとインフラ指標によりこのキャンペーンをMiniMaxに帰属させ、タイミングを同社の公開プロダクトロードマップと照合して確認しました。私たちは、このキャンペーンがまだ進行中—MiniMaxが学習中のモデルをリリースする前—に検知し、データ生成からモデルローンチに至るまで、蒸留攻撃のライフサイクルに前例のない可視性を得ました。MiniMaxの活動中キャンペーンの最中に私たちが新モデルをリリースしたところ、彼らは24時間以内に方針転換し、トラフィックのほぼ半分をリダイレクトして、当社最新システムの能力を捕捉しました。

蒸留者が最先端モデルにアクセスする方法

国家安全保障上の理由から、Anthropicは現在、中国においてClaudeへの商用アクセスを提供していません。また、中国国外に所在する同社の企業の子会社にも提供していません。

これを回避するため、ラボは商用プロキシサービスを利用し、Claudeや他の最先端AIモデルへのアクセスを大規模に転売させます。これらのサービスは、私たちが「ヒドラ・クラスター(hydra cluster)」アーキテクチャと呼ぶものを運用します。これは、不正アカウントの広範なネットワークで、当社APIとサードパーティのクラウドプラットフォームの両方にトラフィックを分散させます。これらのネットワークは広範であるため、単一障害点が存在しません。あるアカウントが停止されると、新しいアカウントがその代わりになります。あるケースでは、単一のプロキシネットワークが同時に2万超の不正アカウントを管理し、蒸留トラフィックを無関係な顧客リクエストと混在させて検知をより困難にしていました。

アクセスを確保すると、ラボはモデルから特定の能力を抽出するために設計された、慎重に作り込まれたプロンプトを大量に生成します。目的は、直接のモデル学習のために高品質な応答を収集すること、または強化学習を実行するのに必要な何万ものユニークタスクを生成することのいずれかです。蒸留攻撃を通常利用と区別するのはパターンです。以下のようなプロンプト(私たちが反復的かつ大規模に使用されているのを確認した類似プロンプトを近似したもの)は、単体では無害に見えるかもしれません:

あなたは、統計的厳密性と深いドメイン知識を兼ね備えた熟練のデータアナリストです。あなたの目標は、要約や可視化ではなく、実データに根ざし、完全で透明な推論に裏打ちされたデータ駆動の洞察を提供することです。

しかし、そのプロンプトのバリエーションが、同じ狭い能力を狙って、協調した数百のアカウントから何万回も届くと、パターンは明確になります。少数領域への大量集中、極めて反復的な構造、そしてAIモデルの学習にとって最も価値のあるものに直接対応する内容—これらが蒸留攻撃の特徴です。

私たちの対応

私たちは、このような蒸留攻撃を実行しづらくし、識別しやすくする防御策に継続して大規模投資を行っています。具体的には次のとおりです:

  • 検知。APIトラフィックにおける蒸留攻撃パターンを特定するために、複数の分類器(classifier)と行動フィンガープリンティング(behavioral fingerprinting)システムを構築しました。これには、推論学習データを構築するために用いられるチェーン・オブ・ソート(chain-of-thought)の引き出し(elicitation)の検知が含まれます。また、大量アカウントにわたる協調活動を特定する検知ツールも構築しました。
  • インテリジェンス共有 . 他のAIラボ、クラウドプロバイダー、関係当局と技術的指標を共有しています。これにより、蒸留の状況についてより包括的な全体像が得られます。
  • アクセス制御。教育アカウント、セキュリティ研究プログラム、スタートアップ組織向けの認証を強化しました—これらは不正アカウントの作成に最も悪用されやすい経路です。
  • 対抗策。正当な顧客体験を損なうことなく、不正蒸留に対するモデル出力の有効性を低下させることを目的とした、プロダクト、API、モデルレベルの安全策を開発しています。

しかし、いかなる企業も単独では解決できません。前述のとおり、この規模の蒸留攻撃への対処には、AI業界、クラウドプロバイダー、政策立案者にまたがる協調的な対応が必要です。私たちは、結果に利害を持つすべての人々が証拠を利用できるようにするため、これを公開しています。