Les accusations d’Anthropic concernant une « 模型蒸馏攻击 » sont-elles fondées ?

Récemment, Anthropic, une entreprise de premier plan bien connue dans le domaine de l’IA, a publié une déclaration extrêmement controversée. Elle affirme que trois grands laboratoires d’IA chinois (DeepSeek, Moonshot et MiniMax) mèneraient des « attaques par distillation » (Distillation Attacks) contre les modèles d’Anthropic.

Selon le rapport d’Anthropic, ces organisations auraient utilisé plus de 24 000 comptes frauduleux, générant plus de 16 millions d’interactions (Exchanges), dans le but d’extraire les capacités fondamentales du modèle Claude et de les utiliser pour l’entraînement de leurs propres modèles. Cependant, si l’on examine de près ces données et cette logique sous l’angle des développeurs techniques, des mécanismes de fonctionnement des API et des benchmarks (tests de référence) du secteur, on constate que cette accusation comporte de nombreuses failles discutables.

1. Qu’est-ce qu’une « attaque par distillation » ?

Avant d’aborder l’accusation, il faut clarifier ce que signifie la « distillation » (Distillation) en apprentissage automatique. La distillation de modèle traditionnelle consiste à soumettre des prompts à un modèle plus intelligent et plus volumineux, à obtenir des données de sortie de haute qualité, puis à utiliser ces données pour entraîner un nouveau modèle plus petit et moins coûteux, afin qu’il acquière des capacités similaires. C’est une pratique très courante dans l’industrie ; par exemple, l’outil d’assistance à la programmation Cursor, sous réserve de payer légalement les frais d’API, utilise les données générées pour entraîner son propre modèle de code plus léger.

« Attaque par distillation » est en revanche un terme nouveau proposé par Anthropic. Aujourd’hui, les grands laboratoires sont très vigilants vis-à-vis des comportements de distillation. Par exemple, OpenAI estime que DeepSeek a utilisé les données de son modèle o1 pour entraîner le modèle R1 ; OpenAI a donc décidé de masquer la « trace de raisonnement » (Reasoning Trace) du modèle o1, en ne renvoyant que le résultat final. À l’inverse, lorsqu’Anthropic a initialement lancé des modèles dotés de capacités de raisonnement, elle n’a pas choisi d’obscurcir ni de masquer ces étapes de raisonnement. Cela facilite le débogage des systèmes pour les développeurs, mais rend aussi ces données plus précieuses pour les organisations cherchant à réaliser de l’apprentissage par renforcement et de l’entraînement par distillation.

2. Examen critique des données clés : le piège du calcul des « interactions »

Dans son rapport, Anthropic énumère des données de « preuves » spécifiques visant chaque laboratoire, mais d’un point de vue de connaissances techniques de base, ces volumes de données ne sont pas seulement peu importants — ils sont même négligeables :

  • DeepSeek : accusé d’environ 150 000 interactions.
  • Moonshot (月之暗面) : accusé d’environ 3,4 millions d’interactions.
  • MiniMax : accusé d’environ 13 millions d’interactions.

L’effet d’amplification des appels d’outils (Tool Calls) sur le volume de requêtes

La clé pour comprendre ces chiffres réside dans la définition d’« interaction (Exchange) » chez Anthropic. Dans les applications modernes d’Agent (agents intelligents), les appels d’outils (Tool Calls) peuvent faire qu’une seule requête utilisateur soit amplifiée en dizaines, voire en centaines d’interactions.

Lorsqu’un modèle doit exécuter une tâche complexe (comme « mettre à jour le code de la page d’accueil pour inclure une nouvelle tarification »), le workflow est le suivant :

  1. Le modèle demande à rechercher les fichiers pertinents (fin de la 1re interaction, la connexion est coupée).
  2. Le système exécute la recherche, puis renvoie au modèle l’historique complet et les résultats (2e interaction).
  3. Le modèle demande à lire quelques fichiers spécifiques (3e interaction).
  4. Le système renvoie le contenu des fichiers, et le modèle génère finalement des propositions de modification de code (4e interaction et suivantes).

Si l’on active des recherches multiples ou une analyse complexe de base de code, un simple prompt utilisateur peut très facilement se transformer en des centaines « d’interactions » consécutives.

Analyse combinant benchmarks et produits réels

  • Les 150 000 interactions de DeepSeek : pour une application de chat IA de petite ou moyenne taille, produire 160 000 requêtes par jour est un volume tout à fait basique. Si c’est utilisé pour exécuter des benchmarks de modèles (Benchmark, comme SnitchBench), 150 000 interactions suffisent tout juste à exécuter entièrement 2 à 3 passes de test. Tous les laboratoires doivent fréquemment exécuter les API des concurrents afin d’étalonner leurs benchmarks internes.
  • Les interactions au niveau du million pour Moonshot et MiniMax : en prenant le benchmark de programmation bien connu SWE-bench, qui contient environ 2 300 tâches. Si, durant le test, on donne au modèle la capacité d’appeler des outils, en estimation conservatrice chaque tâche génère 50 interactions d’appel d’outil ; exécuter une seule passe de SWE-bench nécessite alors 115 000 interactions. Il suffit de faire 30 tours de benchmark pour atteindre facilement l’ordre de grandeur de 3,4 millions d’interactions.
  • La consommation côté produit légitime : MiniMax a déjà eu des produits Agent orientés utilisateur (comme des services intégrant Gemini et d’autres modèles tiers). Si ces produits doivent effectuer des recherches approfondies et de multiples récupérations de données, 13 millions d’interactions est un chiffre très facile à atteindre dans une application commerciale normale orientée utilisateur.

Par ailleurs, Anthropic mentionne que lorsqu’elle publie un nouveau modèle, MiniMax aurait redirigé près de la moitié de son trafic vers le nouveau modèle en 24 heures. Cela correspond en réalité parfaitement à une logique comportementale utilisateur : quand l’UI affiche un bouton pour basculer vers le dernier modèle phare, la grande majorité du trafic des utilisateurs réels se reporte naturellement et rapidement vers le nouveau modèle.

3. Le paradoxe de la logique de sécurité et la panique de l’open source

Anthropic affirme que les modèles construits via une distillation illégale supprimeraient les garde-fous de sécurité du modèle d’origine, créant ainsi des risques pour la sécurité nationale (par exemple, être utilisés pour développer des armes biologiques).

Cette affirmation comporte un paradoxe logique évident : si les mécanismes de sécurité des modèles d’Anthropic sont réellement efficaces, ils devraient refuser dès la source de générer des connaissances sur les armes biologiques. Si le modèle de base refuse déjà les requêtes malveillantes, comment un attaquant pourrait-il, via des prompts, « distiller » une capacité dangereuse que le modèle ne produit pas de toute façon ?

De plus, le rapport d’Anthropic révèle une forte hostilité envers les modèles « open source / à poids ouverts (Open-weight) », en suggérant que les modèles open source distillés feraient perdre le contrôle des risques. Il convient de noter qu’Anthropic est actuellement le seul laboratoire grand public à n’avoir publié aucun modèle à poids open source (OpenAI, Google et de nombreux laboratoires chinois ont tous publié des modèles open source). Ironiquement, des éléments indiquent qu’Anthropic elle-même a utilisé à l’entraînement des méthodes inventées dans des articles techniques publiés par DeepSeek en 2024.

4. La vérité sur les clusters de proxy (Hydra-clusters)

Le seul phénomène objectif relativement crédible dans le rapport est le suivant : en Chine, il existe effectivement une utilisation importante de services de proxy commerciaux et d’architectures de « clusters Hydra (Hydra-cluster) » pour accéder à haute fréquence aux modèles Claude.

La raison fondamentale est en réalité qu’Anthropic applique un blocage régional strict et des restrictions d’accès à la Chine. Pour contourner ces restrictions, certains intermédiaires de proxy enregistrent un très grand nombre de comptes afin de répartir les requêtes, voire agrègent des données en fournissant une interface proxy Claude bon marché, puis entraînent leurs propres petits modèles pour subventionner les coûts de proxy. Bien que ce comportement existe objectivement, l’attribuer directement à des actions organisationnelles officielles de laboratoires d’IA de premier plan comme DeepSeek manque non seulement de preuves irréfutables, mais les faibles volumes de données divulgués ne peuvent pas non plus étayer une accusation d’une telle ampleur.

Anthropic fournit un extrait de ce qu’elle présente comme un « prompt typique » utilisé pour la distillation, demandant au modèle de jouer le rôle d’un « expert analyste de données » et de « fournir des insights basés sur des données réelles et un raisonnement transparent ». D’un point de vue technique, il s’agit tout simplement d’un prompt système (System Prompt) standard et légitime pour un Agent de recherche ; il est difficile, sur cette seule base, de le qualifier d’attaque de distillation malveillante.

5. Conclusion : frontières floues et double standard

Toute cette affaire met au jour les contradictions profondes auxquelles l’industrie de l’IA est confrontée. Les grands modèles d’Anthropic et d’OpenAI, entre autres, sont initialement entraînés à partir de données obtenues par un scraping massif de contenus publics sur Internet (y compris des contenus protégés par le droit d’auteur). Ce sont précisément ces pratiques de scraping des grandes entreprises qui rendent aujourd’hui les données d’Internet de plus en plus fermées.

Pourtant, lorsque d’autres entreprises tentent d’exploiter les données de sortie de ces modèles, elles se voient immédiatement affublées des étiquettes « extraction illégale » et « attaque ». À l’heure où la définition dans les Terms of Service (conditions de service) est extrêmement floue — par exemple, scraper un dépôt GitHub public contenant du code généré par Claude est-il considéré comme de la « distillation » ? — ce type d’interdiction unilatérale et d’accusations non étayées ressemble davantage à une opération de relations publiques fondée sur l’anxiété de la concurrence commerciale qu’à une démarche motivée par des considérations de sécurité.