Anthropicの「モデル蒸留攻撃」への告発は根拠があるのか?

近日、AI分野の著名なトップ企業 Anthropic が、極めて物議を醸す声明を発表した。彼らは、中国の主要な3つのAIラボ(DeepSeek、Moonshot、MiniMax)が Anthropic のモデルに対して「蒸馏攻击」(Distillation Attacks)を行っていると主張している。

Anthropic の報告によれば、これらの組織は24,000を超える不正アカウントを用い、1,600万回超のインタラクション(Exchanges)を生成し、Claude モデルの根底にある能力を抽出して自社モデルの学習に用いようとしたという。しかし、技術開発者、APIの運用メカニズム、業界ベンチマークの観点からこれらのデータと論理を精査すると、この告発には多くの検討に値する穴があることが見えてくる。

1. 「蒸馏攻击」とは何か?

告発を検討する前に、機械学習における「蒸馏」(Distillation)の意味を明確にする必要がある。従来のモデル蒸留とは、より賢く大規模なモデルにプロンプトを入力して高品質な出力データを取得し、そのデータでより小型で低コストの新モデルを学習させ、同様の能力を持たせることを指す。これは業界で非常に一般的な技術手段であり、例えばプログラミング支援ツール Cursor は、正当にAPI料金を支払う前提で生成データを用い、自社のより軽量なコードモデルを学習させることがある。

一方、「蒸馏攻击」は Anthropic が提起した新しい用語である。現在、各ラボは蒸留行為に強い警戒感を抱いている。例えば OpenAI は、DeepSeek が自社の o1 モデルのデータを用いて R1 モデルを学習させたとみなし、o1 モデルの「推理过程」(Reasoning Trace)を非表示にして最終結果のみを出力することにした。これに対し Anthropic は、推論能力を持つモデルを当初投入した際、これらの推論ステップを撹乱したり隠したりしなかった。これは開発者のシステムデバッグを容易にする一方で、強化学習や蒸留学習を試みる組織にとって、より価値の高いデータとなり得る。

2. 中核データの検証:「インタラクション回数」算定の罠

Anthropic は報告で各ラボに対する具体的な「罪証」データを挙げているが、技術的常識から見ると、そのデータ規模は大きいどころか、むしろ取るに足らないとも言える。

  • DeepSeek:約150,000回のインタラクションを行ったとされる。
  • Moonshot(月之暗面):約340万回のインタラクションを行ったとされる。
  • MiniMax:約1300万回のインタラクションを行ったとされる。

ツール呼び出し(Tool Calls)によるリクエスト量の増幅効果

これらの数字を理解する鍵は、Anthropic における「インタラクション(Exchange)」の定義にある。現代の Agent(エージェント)アプリケーションでは、ツール呼び出し(Tool Calls)によって、単一のユーザーリクエストが数十回、場合によっては数百回のインタラクションに増幅され得る。

モデルに複雑なタスク(例:「新しい価格を含むようにホームページのコードを更新して」)を実行させる場合、ワークフローは次のようになる。

  1. モデルが関連ファイルの検索を要求(第1回インタラクション終了、接続断)。
  2. システムが検索を実行後、完全な履歴と結果をモデルに返送(第2回インタラクション)。
  3. モデルが特定の複数ファイルの読み取りを要求(第3回インタラクション)。
  4. システムがファイル内容を返し、モデルが最終的なコード修正提案を生成(第4回および後続インタラクション)。

複数回検索や複雑なコードベース解析を有効にしていると、単純なユーザー Prompt が容易に数百回の連続した「インタラクション」に変換される。

ベンチマークと実プロダクトを踏まえた分析

  • DeepSeek の15万回のインタラクション:中小規模のAIチャットアプリにとって、1日で16万回のリクエストが発生するのは極めて基本的な水準である。通常のモデルベンチマーク(Benchmark、例:SnitchBench)を回す用途であれば、15万回のインタラクションはフル実行でせいぜい2〜3回分に過ぎない。どのラボも、競合のAPIを頻繁に実行して自社内部ベンチマークを較正する必要がある。
  • Moonshot と MiniMax の百万回規模のインタラクション:著名なプログラミングベンチマーク SWE-bench を例にすると、このテストは約2,300タスクを含む。テストでモデルにツール呼び出し能力を与えると、保守的に見積もっても各タスクで50回のツール呼び出しインタラクションが生じうるため、SWE-bench を1回完走するだけで115,000回のインタラクションが必要となる。ベンチマークを30周回すれば、340万回規模に容易に達する。
  • 正規プロダクト側の消費:MiniMax はかつてユーザー向けの Agent プロダクト(Gemini や他の第三者モデルを統合したサービス等)を持っていた。これらのプロダクトがディープリサーチや複数回のデータ検索を要するなら、1300万回のインタラクションは通常の商用ユーザー向けアプリケーションで十分到達しうる数字である。

さらに Anthropic は、新モデル公開時に MiniMax が24時間以内にトラフィックの約半分を新モデルへリダイレクトしたと述べている。しかしこれはユーザー行動として極めて自然である——UIに最新フラッグシップモデルへ切り替えるボタンが現れれば、実ユーザーのトラフィックは自然に新モデルへ急速に偏るのが一般的だ。

3. セキュリティ論理のパラドックスとオープンソース恐怖

Anthropic は、違法な蒸留によって構築されたモデルは元のモデルの安全ガードレールを剥離し、国家安全保障上のリスク(例:生物兵器開発への利用)をもたらすと主張している。

この主張には明確な論理的パラドックスがある。もし Anthropic 自社モデルの安全機構が本当に有効なら、そもそも生物兵器に関する知識の生成を源流で拒否できるはずだ。基盤モデルが悪意あるリクエストをすでに拒否しているなら、攻撃者はプロンプト入力によって、モデルが元々出力しない危険能力をどのように「蒸留」できるのだろうか。

さらに Anthropic は報告の中で、「开源/开放权重(Open-weight)」モデルに対する強い拒否感を露わにし、オープンソース蒸留モデルがリスクの暴走を招くと示唆している。注目すべき点として、Anthropic は現在、いかなるオープンウェイトモデルも公開したことがない唯一の主流ラボである(OpenAI、Google および多数の中国ラボはいずれもオープンモデルを公開している)。皮肉なことに、Anthropic 自身の学習でも、DeepSeek が2024年に公開した技術論文で発明した学習手法が使われていることを示す証拠がある。

4. 代理クラスタ(Hydra-clusters)の真相

報告の中で唯一比較的信頼できる客観現象は、中国で商用プロキシサービスと「九头蛇集群(Hydra-cluster)」アーキテクチャを用いて Claude モデルへ高頻度アクセスする行為が大量に存在する、という点である。

その根本原因は、Anthropic が中国地域に対して厳格な地域ブロックとアクセス制限を実施していることにある。制限を回避するため、一部の第三者プロキシ業者は大量のアカウントを登録してリクエストを分散させ、さらには安価な Claude プロキシAPIを提供してデータを集約し、ひいては自社の小型モデルを学習してプロキシコストを補填しようとする。こうした行為が客観的に存在することは否定できないが、それを DeepSeek などトップAIラボの公式な組織行為に直接帰責するのは、確たる証拠に欠けるだけでなく、開示された微小なデータ量ではこの壮大な告発を支えられない。

Anthropic が提示した、蒸留に用いられたとされる「典型プロンプト」の証拠は、モデルに「専門データアナリスト」を演じさせ、「実データと透明な推論に基づく洞察」を提供するよう求める内容だった。技術的に見れば、これは標準的かつ正当な研究型 Agent のシステムプロンプト(System Prompt)そのものであり、これだけで悪意ある蒸留攻撃と断定するのは難しい。

5. 結語:曖昧な境界と二重基準

この一連の事件は、AI業界が現在直面する深層矛盾を露呈させた。Anthropic や OpenAI などの巨大モデルは、初期学習データ自体がインターネット上の公開コンテンツ(著作権コンテンツを含む場合もある)を大規模にスクレイピングして得られたものだ。まさにこれら大企業のスクレイピング行為が、今日のインターネットデータをますます閉鎖的にしている。

しかし、他社がこれらモデルの出力データを利用しようとすると、即座に「違法な抽出」や「攻撃」のレッテルが貼られる。Terms of Service(サービス条款)の線引きが極めて曖昧な現状——例えば、Claude が生成したコードを含む公開 GitHub リポジトリをクロールすることは「蒸馏」に当たるのか——において、こうした一方的な排除とデータ根拠に乏しい告発は、安全上の配慮というより、商業競争への焦りに基づくPR行為に近い。