Détection et prévention des attaques par distillation

Nous avons identifié des campagnes à l’échelle industrielle menées par trois laboratoires d’IA — DeepSeek, Moonshot et MiniMax — visant à extraire illicitement les capacités de Claude afin d’améliorer leurs propres modèles. Ces laboratoires ont généré plus de 16 millions d’échanges avec Claude via environ 24 000 comptes frauduleux, en violation de nos conditions d’utilisation et des restrictions d’accès régionales.

Ces laboratoires ont utilisé une technique appelée « distillation », qui consiste à entraîner un modèle moins performant à partir des sorties d’un modèle plus puissant. La distillation est une méthode d’entraînement largement utilisée et légitime. Par exemple, les laboratoires d’IA de pointe distillent couramment leurs propres modèles pour créer des versions plus petites et moins coûteuses pour leurs clients. Mais la distillation peut aussi être utilisée à des fins illicites : des concurrents peuvent s’en servir pour acquérir des capacités puissantes provenant d’autres laboratoires en une fraction du temps et à une fraction du coût qu’il faudrait pour les développer de manière indépendante.

Ces campagnes gagnent en intensité et en sophistication. La fenêtre d’action est étroite, et la menace dépasse une seule entreprise ou une seule région. Y répondre exigera une action rapide et coordonnée entre les acteurs de l’industrie, les décideurs politiques et la communauté mondiale de l’IA.

Pourquoi la distillation est importante

Les modèles distillés illicitement ne disposent pas des garde-fous nécessaires, ce qui crée d’importants risques pour la sécurité nationale. Anthropic et d’autres entreprises américaines conçoivent des systèmes qui empêchent des acteurs étatiques et non étatiques d’utiliser l’IA pour, par exemple, développer des armes biologiques ou mener des activités cybernétiques malveillantes. Les modèles construits via une distillation illicite ont peu de chances de conserver ces garde-fous, ce qui signifie que des capacités dangereuses peuvent se diffuser alors que de nombreuses protections sont entièrement supprimées.

Des laboratoires étrangers qui distillent des modèles américains peuvent ensuite injecter ces capacités non protégées dans des systèmes militaires, de renseignement et de surveillance — permettant à des gouvernements autoritaires de déployer une IA de pointe pour des opérations cyber offensives, des campagnes de désinformation et une surveillance de masse. Si des modèles distillés sont open source, ce risque se multiplie à mesure que ces capacités se diffusent librement au-delà du contrôle d’un seul gouvernement.

Attaques de distillation et contrôles à l’exportation

Anthropic a constamment soutenu les contrôles à l’exportation afin d’aider à maintenir l’avance des États-Unis en IA. Les attaques de distillation sapent ces contrôles en permettant à des laboratoires étrangers — y compris ceux soumis au contrôle du Parti communiste chinois — de combler l’avantage compétitif que ces contrôles sont censés préserver, par d’autres moyens.

Sans visibilité sur ces attaques, les avancées apparemment rapides de ces laboratoires sont à tort considérées comme la preuve que les contrôles à l’exportation sont inefficaces et peuvent être contournés par l’innovation. En réalité, ces progrès dépendent en grande partie de capacités extraites de modèles américains, et exécuter cette extraction à grande échelle nécessite l’accès à des puces avancées. Les attaques de distillation renforcent donc la justification des contrôles à l’exportation : un accès restreint aux puces limite à la fois l’entraînement direct des modèles et l’ampleur de la distillation illicite.

Ce que nous avons constaté

Les trois campagnes de distillation détaillées ci-dessous ont suivi un mode opératoire similaire, utilisant des comptes frauduleux et des services proxy pour accéder à Claude à grande échelle tout en échappant à la détection. Le volume, la structure et l’objectif des prompts se distinguaient des usages normaux, reflétant une extraction délibérée de capacités plutôt qu’un usage légitime.

Nous avons attribué chaque campagne à un laboratoire spécifique avec un haut niveau de confiance grâce à la corrélation des adresses IP, aux métadonnées des requêtes, à des indicateurs d’infrastructure et, dans certains cas, à des corroborations de partenaires industriels ayant observé les mêmes acteurs et comportements sur leurs plateformes. Chaque campagne visait les capacités les plus différenciées de Claude : raisonnement agentique, utilisation d’outils et code.

DeepSeek

Échelle : plus de 150 000 échanges

L’opération visait :

  • Des capacités de raisonnement sur des tâches diverses
  • Des tâches d’évaluation basées sur des rubriques, faisant fonctionner Claude comme un modèle de récompense pour l’apprentissage par renforcement
  • La création d’alternatives compatibles avec la censure à des requêtes sensibles vis-à-vis des politiques

DeepSeek a généré un trafic synchronisé entre les comptes. Des schémas identiques, des méthodes de paiement partagées et un calendrier coordonné suggéraient un « équilibrage de charge » afin d’augmenter le débit, d’améliorer la fiabilité et d’éviter la détection.

Dans une technique notable, leurs prompts demandaient à Claude d’imaginer et d’exprimer le raisonnement interne derrière une réponse terminée et de le rédiger étape par étape — générant de facto des données d’entraînement de type chaîne de pensée à grande échelle. Nous avons également observé des tâches où Claude était utilisé pour générer des alternatives compatibles avec la censure à des requêtes politiquement sensibles, comme des questions sur des dissidents, des dirigeants du parti ou l’autoritarisme, probablement afin d’entraîner les propres modèles de DeepSeek à orienter les conversations loin des sujets censurés. En examinant les métadonnées des requêtes, nous avons pu relier ces comptes à des chercheurs spécifiques du laboratoire.

Moonshot AI

Échelle : plus de 3,4 millions d’échanges

L’opération visait :

  • Le raisonnement agentique et l’utilisation d’outils
  • Le code et l’analyse de données
  • Le développement d’agents d’utilisation d’ordinateur
  • La vision par ordinateur

Moonshot (modèles Kimi) a utilisé des centaines de comptes frauduleux couvrant plusieurs voies d’accès. La diversité des types de comptes rendait la campagne plus difficile à détecter comme une opération coordonnée. Nous avons attribué la campagne grâce aux métadonnées des requêtes, qui correspondaient aux profils publics de cadres supérieurs de Moonshot. Dans une phase ultérieure, Moonshot a adopté une approche plus ciblée, tentant d’extraire et de reconstruire les traces de raisonnement de Claude.

MiniMax

Échelle : plus de 13 millions d’échanges

L’opération visait :

  • Le codage agentique
  • L’utilisation et l’orchestration d’outils

Nous avons attribué la campagne à MiniMax via les métadonnées des requêtes et des indicateurs d’infrastructure, et confirmé les calendriers au regard de leur feuille de route produit publique. Nous avons détecté cette campagne alors qu’elle était encore active — avant que MiniMax ne publie le modèle qu’elle entraînait — nous donnant une visibilité sans précédent sur le cycle de vie des attaques de distillation, de la génération de données jusqu’au lancement du modèle. Lorsque nous avons publié un nouveau modèle pendant la campagne active de MiniMax, ils ont pivoté en moins de 24 heures, redirigeant près de la moitié de leur trafic pour capturer des capacités de notre dernier système.

Comment les distillateurs accèdent aux modèles d’IA de pointe

Pour des raisons de sécurité nationale, Anthropic ne propose pas actuellement d’accès commercial à Claude en Chine, ni aux filiales de leurs entreprises situées en dehors du pays.

Pour contourner cela, les laboratoires utilisent des services proxy commerciaux qui revendent un accès à Claude et à d’autres modèles d’IA de pointe à grande échelle. Ces services exploitent ce que nous appelons des architectures de « hydra cluster » : de vastes réseaux de comptes frauduleux qui distribuent le trafic à travers notre API ainsi que des plateformes cloud tierces. L’étendue de ces réseaux implique qu’il n’y a pas de points uniques de défaillance. Lorsqu’un compte est banni, un nouveau le remplace. Dans un cas, un seul réseau proxy gérait simultanément plus de 20 000 comptes frauduleux, mêlant le trafic de distillation à des requêtes clients sans rapport afin de rendre la détection plus difficile.

Une fois l’accès obtenu, les laboratoires génèrent de grands volumes de prompts soigneusement élaborés, conçus pour extraire des capacités spécifiques du modèle. L’objectif est soit de collecter des réponses de haute qualité pour un entraînement direct du modèle, soit de générer des dizaines de milliers de tâches uniques nécessaires à l’exécution d’un apprentissage par renforcement. Ce qui distingue une attaque de distillation d’un usage normal, c’est le schéma. Un prompt comme celui-ci (qui approxime des prompts similaires que nous avons vus utilisés de manière répétitive et à grande échelle) peut sembler bénin pris isolément :

Vous êtes un expert analyste de données combinant une rigueur statistique à une connaissance approfondie du domaine. Votre objectif est de fournir des insights guidés par les données — pas des résumés ni des visualisations — ancrés dans des données réelles et étayés par un raisonnement complet et transparent.

Mais lorsque des variations de ce prompt arrivent des dizaines de milliers de fois via des centaines de comptes coordonnés, toutes visant la même capacité étroite, le schéma devient évident. Un volume massif concentré sur quelques domaines, des structures hautement répétitives et un contenu qui correspond directement à ce qui est le plus précieux pour entraîner un modèle d’IA sont les caractéristiques d’une attaque de distillation.

Comment nous réagissons

Nous continuons d’investir massivement dans des défenses qui rendent ces attaques de distillation plus difficiles à exécuter et plus faciles à identifier. Celles-ci incluent :

  • Détection. Nous avons construit plusieurs classificateurs et systèmes d’empreintes comportementales conçus pour identifier les schémas d’attaque de distillation dans le trafic API. Cela inclut la détection de l’extraction de chaîne de pensée utilisée pour construire des données d’entraînement au raisonnement. Nous avons également développé des outils de détection pour identifier une activité coordonnée à travers un grand nombre de comptes.
  • Partage de renseignement . Nous partageons des indicateurs techniques avec d’autres laboratoires d’IA, des fournisseurs cloud et les autorités concernées. Cela fournit une vision plus holistique du paysage de la distillation.
  • Contrôles d’accès. Nous avons renforcé la vérification pour les comptes éducatifs, les programmes de recherche en sécurité et les organisations de startups — les voies le plus souvent exploitées pour créer des comptes frauduleux.
  • Contre-mesures. Nous développons des garde-fous au niveau du Produit, de l’API et du modèle afin de réduire l’efficacité des sorties du modèle pour la distillation illicite, sans dégrader l’expérience des clients légitimes.

Mais aucune entreprise ne peut résoudre cela seule. Comme indiqué plus haut, les attaques de distillation à cette échelle nécessitent une réponse coordonnée à travers l’industrie de l’IA, les fournisseurs cloud et les décideurs politiques. Nous publions ceci afin de mettre les preuves à la disposition de tous ceux qui ont un intérêt dans l’issue.