Обнаружение и предотвращение атак дистилляции

Мы выявили промышленные по масштабу кампании, проводимые тремя ИИ-лабораториями — DeepSeek, Moonshot и MiniMax, — с целью незаконно извлечь возможности Claude, чтобы улучшить собственные модели. Эти лаборатории сгенерировали более 16 миллионов обменов с Claude через примерно 24 000 мошеннических аккаунтов, нарушая наши условия обслуживания и региональные ограничения доступа.

Эти лаборатории использовали технику под названием «дистилляция» (distillation), которая предполагает обучение менее способной модели на выходных данных более сильной. Дистилляция — широко используемый и легитимный метод обучения. Например, ведущие (frontier) ИИ-лаборатории регулярно дистиллируют собственные модели, чтобы создавать более компактные и дешёвые версии для клиентов. Но дистилляцию можно применять и в незаконных целях: конкуренты могут использовать её, чтобы получить мощные возможности других лабораторий за долю времени и за долю стоимости, которые потребовались бы для самостоятельной разработки.

Эти кампании становятся всё более интенсивными и изощрёнными. Окно для действий узкое, и угроза выходит за пределы любой отдельной компании или региона. Для противодействия потребуются быстрые, скоординированные действия со стороны участников отрасли, политиков и глобального сообщества в сфере ИИ.

Почему дистилляция важна

Незаконно дистиллированным моделям не хватает необходимых мер защиты, что создаёт существенные риски для национальной безопасности. Anthropic и другие компании США создают системы, которые предотвращают использование ИИ государственными и негосударственными субъектами, например, для разработки биологического оружия или проведения вредоносной киберактивности. Модели, созданные посредством незаконной дистилляции, с высокой вероятностью не сохранят эти меры защиты, а значит, опасные возможности могут распространяться при полностью снятых защитных ограничениях.

Иностранные лаборатории, дистиллирующие американские модели, затем могут внедрять эти незащищённые возможности в военные, разведывательные и системы наблюдения — позволяя авторитарным правительствам применять передовой ИИ для наступательных киберопераций, кампаний дезинформации и массовой слежки. Если дистиллированные модели будут открыто опубликованы (open-sourced), этот риск многократно возрастёт, поскольку эти возможности начнут свободно распространяться, выходя из-под контроля любого отдельного государства.

Атаки дистилляции и экспортный контроль

Anthropic последовательно поддерживает экспортный контроль, чтобы помочь сохранить лидерство США в области ИИ. Атаки дистилляции подрывают эти меры контроля, позволяя иностранным лабораториям, включая те, которые подпадают под контроль Коммунистической партии Китая, сокращать конкурентное преимущество, которое экспортный контроль призван сохранять, иными способами.

Без видимости этих атак кажущиеся быстрыми достижения этих лабораторий ошибочно принимают за доказательство того, что экспортный контроль неэффективен и его можно обойти благодаря инновациям. На самом деле эти достижения в значительной степени зависят от возможностей, извлечённых из американских моделей, а выполнение такого извлечения в промышленных масштабах требует доступа к передовым чипам. Поэтому атаки дистилляции усиливают аргументацию в пользу экспортного контроля: ограниченный доступ к чипам сдерживает как прямое обучение моделей, так и масштаб незаконной дистилляции.

Что мы обнаружили

Три кампании дистилляции, описанные ниже, следовали схожему сценарию: использовали мошеннические аккаунты и прокси‑сервисы, чтобы получать доступ к Claude в больших объёмах, обходя обнаружение. Объём, структура и направленность запросов отличались от нормальных паттернов использования, отражая целенаправленное извлечение возможностей, а не легитимное применение.

Мы с высокой степенью уверенности атрибутировали каждую кампанию конкретной лаборатории на основе корреляции IP‑адресов, метаданных запросов, инфраструктурных индикаторов и, в некоторых случаях, подтверждения от отраслевых партнёров, которые наблюдали тех же акторов и поведение на своих платформах. Каждая кампания была нацелена на наиболее отличительные возможности Claude: агентное рассуждение (agentic reasoning), использование инструментов (tool use) и программирование (coding).

DeepSeek

Масштаб: более 150 000 обменов

Операция была нацелена на:

  • способности к рассуждению в рамках разнообразных задач
  • задачи оценивания по рубрикам (rubric-based grading), в которых Claude выступал в роли reward model для обучения с подкреплением (reinforcement learning)
  • создание «цензуро-устойчивых» альтернатив для запросов, чувствительных с точки зрения политики

DeepSeek генерировала синхронизированный трафик по аккаунтам. Идентичные паттерны, общие способы оплаты и скоординированный тайминг указывали на «балансировку нагрузки» (load balancing), чтобы увеличить пропускную способность, повысить надёжность и избежать обнаружения.

В одной примечательной технике их запросы просили Claude вообразить и сформулировать внутреннее рассуждение, лежащее за завершённым ответом, и записать его шаг за шагом — фактически генерируя данные chain-of-thought для обучения в больших масштабах. Мы также наблюдали задачи, в которых Claude использовался для генерации цензуро-устойчивых альтернатив политически чувствительным запросам, таким как вопросы о диссидентах, лидерах партии или авторитаризме, вероятно, чтобы обучить собственные модели DeepSeek уводить беседы от цензурируемых тем. Изучив метаданные запросов, мы смогли связать эти аккаунты с конкретными исследователями лаборатории.

Moonshot AI

Масштаб: более 3,4 млн обменов

Операция была нацелена на:

  • агентное рассуждение и использование инструментов
  • программирование и анализ данных
  • разработку агента для использования компьютера (computer-use agent)
  • компьютерное зрение (computer vision)

Moonshot (модели Kimi) использовала сотни мошеннических аккаунтов, охватывающих несколько путей доступа. Разнообразие типов аккаунтов усложняло обнаружение кампании как скоординированной операции. Мы атрибутировали кампанию по метаданным запросов, которые совпадали с публичными профилями старших сотрудников Moonshot. На более поздней стадии Moonshot перешла к более точечному подходу, пытаясь извлечь и реконструировать трассы рассуждения (reasoning traces) Claude.

MiniMax

Масштаб: более 13 млн обменов

Операция была нацелена на:

  • агентное программирование (agentic coding)
  • использование инструментов и оркестрацию (tool use and orchestration)

Мы атрибутировали кампанию MiniMax по метаданным запросов и инфраструктурным индикаторам и сверили тайминги с их публичной продуктовой дорожной картой. Мы обнаружили эту кампанию, когда она всё ещё была активной — до того, как MiniMax выпустила модель, которую обучала, — что дало нам беспрецедентную видимость жизненного цикла атак дистилляции: от генерации данных до запуска модели. Когда мы выпустили новую модель во время активной кампании MiniMax, они изменили тактику в течение 24 часов, перенаправив почти половину трафика, чтобы захватить возможности нашей самой новой системы.

Как дистилляторы получают доступ к передовым моделям

По соображениям национальной безопасности Anthropic в настоящее время не предоставляет коммерческий доступ к Claude в Китае, а также дочерним компаниям их компаний, расположенным за пределами страны.

Чтобы обойти это, лаборатории используют коммерческие прокси‑сервисы, которые перепродают доступ к Claude и другим передовым ИИ‑моделям в больших масштабах. Эти сервисы используют архитектуры, которые мы называем «гидра‑кластерами» (hydra cluster): разветвлённые сети мошеннических аккаунтов, распределяющие трафик по нашему API, а также по сторонним облачным платформам. Широта этих сетей означает отсутствие единых точек отказа. Когда один аккаунт блокируется, его заменяет новый. В одном случае одна прокси‑сеть одновременно управляла более чем 20 000 мошеннических аккаунтов, смешивая трафик дистилляции с не связанными с ней запросами клиентов, чтобы усложнить обнаружение.

После получения доступа лаборатории генерируют большие объёмы тщательно составленных запросов, предназначенных для извлечения конкретных возможностей модели. Цель — либо собрать высококачественные ответы для прямого обучения модели, либо сгенерировать десятки тысяч уникальных задач, необходимых для обучения с подкреплением. То, что отличает атаку дистилляции от обычного использования, — это паттерн. Запрос вроде следующего (который приблизительно отражает похожие запросы, которые мы видели, используемые повторно и в больших масштабах) сам по себе может казаться безобидным:

\u003e Вы — экспертный аналитик данных, сочетающий статистическую строгость с глубокими знаниями предметной области. Ваша цель — предоставлять выводы, основанные на данных, — не резюме или визуализации — опираясь на реальные данные и подкрепляя их полным и прозрачным рассуждением.

Но когда вариации этого запроса приходят десятки тысяч раз через сотни скоординированных аккаунтов, все нацеленные на одну и ту же узкую способность, паттерн становится очевидным. Массовый объём, сосредоточенный в нескольких областях, крайне повторяющиеся структуры и контент, который напрямую соответствует тому, что наиболее ценно для обучения ИИ‑модели, — характерные признаки атаки дистилляции.

Как мы реагируем

Мы продолжаем активно инвестировать в защитные меры, которые делают такие атаки дистилляции труднее в реализации и проще в выявлении. К ним относятся:

  • Обнаружение. Мы создали несколько классификаторов и систем поведенческой «дактилоскопии», предназначенных для выявления паттернов атак дистилляции в API‑трафике. Это включает обнаружение извлечения chain-of-thought, используемого для построения данных обучения рассуждению. Мы также разработали инструменты обнаружения для выявления скоординированной активности среди большого числа аккаунтов.
  • Обмен разведданными . Мы делимся техническими индикаторами с другими ИИ‑лабораториями, облачными провайдерами и соответствующими органами. Это даёт более целостную картину ландшафта дистилляции.
  • Контроль доступа. Мы усилили проверку для образовательных аккаунтов, программ исследований безопасности и стартап‑организаций — путей, которые чаще всего эксплуатируются для создания мошеннических аккаунтов.
  • Контрмеры. Мы разрабатываем защитные меры на уровне продукта, API и модели, направленные на снижение эффективности выходов модели для незаконной дистилляции, без ухудшения опыта легитимных клиентов.

Но ни одна компания не сможет решить эту проблему в одиночку. Как мы отмечали выше, атаки дистилляции в таких масштабах требуют скоординированного ответа со стороны индустрии ИИ, облачных провайдеров и политиков. Мы публикуем это, чтобы сделать доказательства доступными всем, кто заинтересован в исходе.