Обоснованы ли обвинения Anthropic в «model distillation attack»?

Недавно известная ведущая компания в области ИИ, Anthropic, опубликовала крайне спорное заявление. Они утверждают, что три крупнейшие AI-лаборатории из Китая (DeepSeek, Moonshot и MiniMax) проводят против моделей Anthropic «атаки дистилляции» (Distillation Attacks).

Согласно отчёту Anthropic, эти организации использовали более 24 000 мошеннических аккаунтов, сгенерировали более 16 миллионов взаимодействий (Exchanges), пытаясь извлечь базовые возможности модели Claude и использовать их в обучении собственных моделей. Однако, если внимательно рассмотреть эти данные и логику с точки зрения технических разработчиков, работы API и отраслевых бенчмарков, обнаруживается, что в этом обвинении есть множество спорных уязвимостей.

1. Что такое «атака дистилляции»?

Прежде чем обсуждать обвинения, нужно прояснить значение «дистилляции» (Distillation) в машинном обучении. Классическая дистилляция модели — это подача подсказок (prompt) более умной и крупной модели, получение её высококачественных выходных данных и использование этих данных для обучения новой, более компактной и дешёвой модели, чтобы та обладала схожими способностями. В индустрии это очень распространённый технический приём; например, инструмент для помощи в программировании Cursor, при условии легальной оплаты стоимости API, использует сгенерированные данные для обучения собственной более лёгкой модели для кода.

«Атака дистилляции» — новый термин, предложенный Anthropic. Сейчас крупнейшие лаборатории относятся к дистилляции крайне настороженно. Например, OpenAI считает, что DeepSeek использовала данные их модели o1 для обучения модели R1, поэтому OpenAI решила скрывать «трассу рассуждений» (Reasoning Trace) модели o1 и выводить только итоговый результат. Напротив, Anthropic, когда изначально выпустила модель со способностью к рассуждению, не стала запутывать или скрывать эти шаги рассуждения. Это, хотя и облегчало разработчикам отладку систем, делало их данные более ценными для организаций, пытающихся проводить обучение с подкреплением и дистилляцию.

2. Проверка ключевых данных: ловушка подсчёта «взаимодействий»

В отчёте Anthropic приведены конкретные численные «доказательства» против каждой лаборатории, но с точки зрения технического здравого смысла эти объёмы не только не велики — их даже можно назвать ничтожными:

  • DeepSeek: обвиняется примерно в 150 000 взаимодействий.
  • Moonshot (月之暗面): обвиняется примерно в 3,4 млн взаимодействий.
  • MiniMax: обвиняется примерно в 13 млн взаимодействий.

Эффект кратного увеличения запросов из‑за вызовов инструментов (Tool Calls)

Ключ к пониманию этих чисел — определение Anthropic термина «взаимодействие (Exchange)». В современных Agent (агентных) приложениях вызовы инструментов (Tool Calls) могут превращать один пользовательский запрос в десятки и даже сотни взаимодействий.

Когда модель просят выполнить сложную задачу (например, «обнови код главной страницы, добавив новые цены»), рабочий процесс выглядит так:

  1. Модель запрашивает поиск релевантных файлов (завершение 1-го взаимодействия, соединение разрывается).
  2. Система выполняет поиск и отправляет модели полную историю и результаты (2-е взаимодействие).
  3. Модель запрашивает чтение нескольких конкретных файлов (3-е взаимодействие).
  4. Система возвращает содержимое файлов, модель в итоге генерирует предложения по изменению кода (4-е и последующие взаимодействия).

Если включён многократный поиск или сложный анализ кодовой базы, один простой пользовательский Prompt очень легко превращается в сотни последовательных «взаимодействий».

Анализ с учётом бенчмарков и реальных продуктов

  • 150 тысяч взаимодействий у DeepSeek: для небольшого или среднего AI-чата 160 тысяч запросов в день — совершенно базовый объём. Если использовать это для обычного запуска бенчмарков модели (Benchmark, например SnitchBench), то 150 тысяч взаимодействий хватит лишь на полноценный прогон 2–3 раз. Всем лабораториям нужно часто прогонять API конкурентов, чтобы калибровать собственные внутренние метрики.
  • Миллионы взаимодействий у Moonshot и MiniMax: возьмём известный бенчмарк для программирования SWE-bench — он содержит около 2 300 задач. Если в тесте дать модели возможность вызывать инструменты и консервативно оценить по 50 инструментальных взаимодействий на задачу, то один прогон SWE-bench потребует 115 000 взаимодействий. Достаточно провести 30 раундов бенчмарка — и легко получится масштаб в 3,4 млн взаимодействий.
  • Потребление на стороне легальных продуктов: у MiniMax ранее был пользовательский Agent‑продукт (например, сервис, интегрировавший Gemini и другие сторонние модели). Если таким продуктам нужно выполнять глубокие исследования и многократные поиски данных, 13 млн взаимодействий — это число, которого очень легко достичь в нормальном коммерческом приложении для пользователей.

Кроме того, Anthropic упоминает, что когда они выпускали новую модель, MiniMax за 24 часа перенаправила почти половину трафика на новую модель. На самом деле это полностью соответствует здравой пользовательской логике — когда в UI появляется переключатель на новейшую флагманскую модель, у подавляющего большинства реальных пользователей трафик естественным образом быстро смещается в её сторону.

3. Парадокс логики безопасности и страх перед open source

Anthropic утверждает, что модели, построенные путём нелегальной дистилляции, «снимают» защитные ограждения (safety guardrails) исходной модели, тем самым создавая риски для национальной безопасности (например, применение для разработки биологического оружия).

В этой логике есть явный парадокс: если собственные механизмы безопасности Anthropic действительно эффективны, они должны с самого начала отказывать в генерации знаний о биологическом оружии. Если базовая модель уже отказывает на вредоносные запросы, то каким образом атакующий сможет, просто вводя подсказки, «дистиллировать» опасные способности, которые модель изначально не выдаёт?

Кроме того, в отчёте Anthropic заметно сильное неприятие моделей с «открытым исходным кодом/открытыми весами (Open-weight)», с намёком, что открытые дистиллированные модели приведут к неконтролируемому росту рисков. Стоит отметить, что Anthropic — единственная крупная лаборатория, которая до сих пор не выпускала ни одной модели с открытыми весами (OpenAI, Google и многие китайские лаборатории выпускали открытые модели). Иронично, что есть свидетельства, что сама Anthropic в обучении также использовала метод обучения, изобретённый DeepSeek и опубликованный в их технической статье в 2024 году.

4. Правда о прокси‑кластерах (Hydra-clusters)

Единственное относительно достоверное объективное наблюдение в отчёте: в Китае действительно существует большое количество высокочастотных обращений к модели Claude через коммерческие прокси‑сервисы и архитектуру «кластера гидры (Hydra-cluster)».

Корневая причина — жёсткая региональная блокировка и ограничения доступа, введённые Anthropic для китайского региона. Чтобы обойти ограничения, некоторые сторонние прокси‑провайдеры регистрируют огромное количество аккаунтов для распределения запросов, а также, предлагая дешёвые прокси‑интерфейсы к Claude, агрегируют данные и затем обучают собственные малые модели, чтобы субсидировать стоимость прокси. Хотя такое поведение объективно существует, напрямую приписывать его официальным организованным действиям ведущих AI‑лабораторий вроде DeepSeek не только не подкреплено убедительными доказательствами, но и не подтверждается опубликованными малыми объёмами данных, которые не могут поддержать столь масштабное обвинение.

Anthropic приводит фрагмент якобы «типичного prompt», используемого для дистилляции, где модель просят сыграть роль «эксперта по анализу данных» и «предоставлять инсайты на основе реальных данных и прозрачных рассуждений». С технической точки зрения это полностью стандартный и легальный системный prompt (System Prompt) исследовательского Agent; по одному этому трудно квалифицировать его как злонамеренную атаку дистилляции.

5. Заключение: размытые границы и двойные стандарты

Вся эта история обнажает глубокое противоречие, с которым сейчас сталкивается индустрия ИИ. Крупные модели таких компаний, как Anthropic и OpenAI, изначально обучались на данных, собранных путём масштабного скрейпинга публичного контента в интернете (включая даже контент, защищённый авторским правом). Именно такие практики скрейпинга со стороны крупных компаний приводят к тому, что интернет‑данные сегодня становятся всё более закрытыми.

Однако когда другие компании пытаются использовать выходные данные этих моделей, их сразу же маркируют как «нелегальное извлечение» и «атаку». В условиях крайне размытых формулировок Terms of Service (условий обслуживания) — например, считается ли «дистилляцией» скрейпинг публичного репозитория GitHub, содержащего код, сгенерированный Claude? — такие односторонние запреты и обвинения без опоры на данные больше похожи не на соображения безопасности, а на PR‑поведение, вызванное тревогой из‑за коммерческой конкуренции.