Sind Anthropics Vorwürfe zu „Model Distillation Attacks“ haltbar?

Kürzlich hat das bekannte führende Unternehmen im KI-Bereich Anthropic eine höchst umstrittene Erklärung veröffentlicht. Darin behauptet es, drei große KI-Labore aus China (DeepSeek, Moonshot und MiniMax) würden „Destillationsangriffe“ (Distillation Attacks) auf die Modelle von Anthropic durchführen.

Laut dem Bericht von Anthropic nutzten diese Organisationen über 24.000 betrügerische Konten, erzeugten mehr als 16 Millionen Interaktionen (Exchanges) und versuchten, die zugrunde liegenden Fähigkeiten des Claude-Modells zu extrahieren und für das Training ihrer eigenen Modelle zu verwenden. Betrachtet man diese Daten und die dahinterstehende Logik jedoch aus der Perspektive technischer Entwickler, der Funktionsweise von APIs sowie von Branchen-Benchmarks, zeigt sich, dass diese Anschuldigung zahlreiche fragwürdige Lücken aufweist.

1. Was ist ein „Destillationsangriff“?

Bevor wir die Anschuldigungen diskutieren, müssen wir klären, was „Destillation“ (Distillation) im Machine Learning bedeutet. Klassische Modell-Destillation bezeichnet das Vorgehen, einem intelligenteren, größeren Modell Prompts zu geben, dessen hochwertige Ausgabedaten zu erhalten und diese Daten zu nutzen, um ein kleineres, kostengünstigeres neues Modell zu trainieren, das ähnliche Fähigkeiten besitzt. Dies ist in der Branche eine sehr gängige technische Methode; so nutzt etwa das Programmierhilfswerkzeug Cursor unter der Voraussetzung, dass API-Gebühren legal bezahlt werden, die generierten Daten, um ein eigenes, leichtergewichtiges Code-Modell zu trainieren.

„Destillationsangriff“ ist dagegen ein von Anthropic geprägter neuer Begriff. Derzeit sind die großen Labore gegenüber Destillationsverhalten sehr wachsam. So ist OpenAI der Ansicht, DeepSeek habe Daten aus seinem o1-Modell verwendet, um das R1-Modell zu trainieren; daher entschied OpenAI, den „Reasoning Trace“ (Reasoning Trace) des o1-Modells zu verbergen und nur das Endergebnis auszugeben. Im Gegensatz dazu hat Anthropic, als es zunächst Modelle mit Schlussfolgerungsfähigkeit veröffentlichte, diese Reasoning-Schritte nicht verschleiert oder versteckt. Das erleichtert zwar Entwicklern das System-Debugging, macht die Daten aber zugleich wertvoller für Organisationen, die Reinforcement Learning und Destillations-Training betreiben wollen.

2. Prüfung der Kerndaten: Die Rechenfalle bei „Interaktionen“

Anthropic führt in seinem Bericht konkrete „Beweis“-Zahlen für die jeweiligen Labore an, doch aus technischer Sicht sind diese Datenmengen nicht nur nicht groß, sondern sogar vernachlässigbar:

  • DeepSeek: angeblich etwa 150.000 Interaktionen.
  • Moonshot (月之暗面): angeblich etwa 3,4 Millionen Interaktionen.
  • MiniMax: angeblich etwa 13 Millionen Interaktionen.

Der Verstärkungseffekt von Tool Calls auf das Anfragevolumen

Der Schlüssel zum Verständnis dieser Zahlen liegt in der Definition von „Interaktion (Exchange)“ bei Anthropic. In modernen Agent-Anwendungen (Agenten) führen Tool Calls dazu, dass eine einzelne Nutzeranfrage auf Dutzende oder sogar Hunderte Interaktionen aufgebläht wird.

Wenn ein Modell aufgefordert wird, eine komplexe Aufgabe auszuführen (z. B. „Aktualisiere den Homepage-Code, um neue Preise einzubinden“), sieht der Workflow so aus:

  1. Das Modell fordert die Suche nach relevanten Dateien an (Ende der 1. Interaktion, Verbindung wird getrennt).
  2. Das System führt die Suche aus und sendet dem Modell die vollständige Historie und Ergebnisse zurück (2. Interaktion).
  3. Das Modell fordert das Lesen einiger spezifischer Dateien an (3. Interaktion).
  4. Das System gibt den Dateiinhalt zurück, und das Modell generiert schließlich Vorschläge zur Code-Änderung (4. und weitere Interaktionen).

Wenn Mehrfachsuche oder komplexe Codebase-Analysen aktiviert sind, kann ein einfacher Nutzer-Prompt sehr leicht in Hunderte aufeinanderfolgende „Interaktionen“ umgewandelt werden.

Analyse in Verbindung mit Benchmarks und realen Produkten

  • DeepSeeks 150.000 Interaktionen: Für eine kleine bis mittelgroße KI-Chat-Anwendung sind 160.000 Requests pro Tag sehr grundlegende Daten. Wenn sie zum Ausführen regulärer Modell-Benchmarks (Benchmark, z. B. SnitchBench) genutzt werden, reichen 150.000 Interaktionen gerade einmal aus, um einen vollständigen Test 2 bis 3 Mal durchlaufen zu lassen. Alle Labore müssen häufig die APIs von Wettbewerbern ausführen, um ihre internen Benchmarks zu kalibrieren.
  • Moonshot und MiniMax im Millionenbereich: Nimmt man den bekannten Programmier-Benchmark SWE-bench als Beispiel, umfasst er rund 2.300 Aufgaben. Wenn man dem Modell im Test Tool-Call-Fähigkeiten gibt und konservativ annimmt, dass jede Aufgabe 50 Tool-Call-Interaktionen erzeugt, dann benötigt ein einmaliger SWE-bench-Lauf bereits 115.000 Interaktionen. Allein 30 Benchmark-Runden erreichen problemlos die Größenordnung von 3,4 Millionen Interaktionen.
  • Verbrauch durch legale Produkte: MiniMax hatte zuvor ein nutzerorientiertes Agent-Produkt (z. B. Dienste, die Gemini und andere Drittanbieter-Modelle integrierten). Wenn solche Produkte Deep Research und mehrfache Datenabfragen erfordern, sind 13 Millionen Interaktionen in normalen kommerziellen Endnutzeranwendungen eine sehr leicht erreichbare Zahl.

Zudem erwähnt Anthropic, dass MiniMax bei der Veröffentlichung eines neuen Modells innerhalb von 24 Stunden nahezu die Hälfte des Traffics auf das neue Modell umleitete. Das entspricht in Wahrheit vollkommen der üblichen Nutzerlogik: Wenn in der UI ein Umschalt-Button für das neueste Flaggschiff-Modell erscheint, verlagert sich der Traffic der meisten realen Nutzer ganz natürlich sehr schnell auf das neue Modell.

3. Paradoxien in der Sicherheitslogik und Open-Source-Panik

Anthropic behauptet, durch illegale Destillation aufgebaute Modelle würden die Sicherheitsleitplanken des Ursprungsmodells entfernen und dadurch nationale Sicherheitsrisiken verursachen (z. B. Nutzung zur Entwicklung biologischer Waffen).

Diese Aussage enthält eine offensichtliche logische Paradoxie: Wenn die Sicherheitsmechanismen von Anthropics eigenen Modellen wirklich wirksam sind, sollten sie die Generierung von Wissen über biologische Waffen bereits an der Quelle ablehnen. Wenn das Basismodell bösartige Anfragen schon zurückweist, wie könnten Angreifer dann durch das Eingeben von Prompts eine gefährliche Fähigkeit „destillieren“, die das Modell ohnehin nicht ausgibt?

Darüber hinaus zeigt Anthropic im Bericht eine starke Ablehnung gegenüber „Open Source / Open-weight“ (Open-weight)-Modellen und deutet an, dass Open-Source-destillierte Modelle Risiken außer Kontrolle geraten lassen würden. Bemerkenswert ist, dass Anthropic derzeit das einzige große Labor ist, das keinerlei Open-Weight-Modelle veröffentlicht hat (OpenAI, Google und viele chinesische Labore haben Open-Source-Modelle herausgegeben). Ironischerweise gibt es Hinweise darauf, dass Anthropic selbst beim Training Methoden verwendet hat, die DeepSeek in einer 2024 öffentlich veröffentlichten technischen Arbeit erfunden hat.

4. Die Wahrheit über Proxy-Cluster (Hydra-clusters)

Das einzige relativ glaubwürdige objektive Phänomen im Bericht ist: In China gibt es tatsächlich umfangreiches Verhalten, bei dem über kommerzielle Proxy-Dienste und eine „Hydra-cluster“-Architektur hochfrequent auf das Claude-Modell zugegriffen wird.

Der grundlegende Grund dahinter ist, dass Anthropic in China strikte Geoblocking- und Zugriffsbeschränkungen implementiert hat. Um diese Einschränkungen zu umgehen, registrieren einige Drittanbieter-Proxys massenhaft Konten, um Requests zu verteilen, oder bündeln Daten, indem sie günstige Claude-Proxy-Interfaces anbieten, um anschließend ihre eigenen kleinen Modelle zu trainieren und damit die Proxy-Kosten zu subventionieren. Auch wenn dieses Verhalten objektiv existiert, fehlt es sowohl an harten Beweisen, es direkt als offizielles, organisiertes Verhalten von DeepSeek und anderen führenden KI-Laboren zuzuordnen, als auch daran, dass die offengelegte geringe Datenmenge eine so weitreichende Anschuldigung tragen könnte.

Anthropic liefert zudem eine Passage, die angeblich ein „typischer Prompt“ für Destillation sei; darin soll das Modell die Rolle eines „Experten-Datenanalysten“ übernehmen und „Insights auf Basis realer Daten und transparenter Begründung“ liefern. Aus technischer Sicht ist das schlicht ein standardmäßiger und legaler System Prompt (System Prompt) für einen forschungsorientierten Agenten; allein daraus lässt sich schwerlich ein bösartiger Destillationsangriff ableiten.

5. Schluss: Unscharfe Grenzen und doppelte Standards

Der gesamte Vorfall legt die tiefen Widersprüche offen, vor denen die KI-Branche derzeit steht. Die großen Modelle von Anthropic und OpenAI und anderen Unternehmen wurden in der Anfangsphase selbst mit Trainingsdaten aufgebaut, die durch großflächiges Scraping öffentlich zugänglicher Inhalte aus dem Internet (sogar einschließlich urheberrechtlich geschützter Inhalte) gewonnen wurden. Gerade dieses Scraping-Verhalten der großen Unternehmen führt dazu, dass Internetdaten heute zunehmend abgeschottet werden.

Wenn jedoch andere Unternehmen versuchen, die Ausgabedaten dieser Modelle zu nutzen, wird ihnen sofort das Label „illegale Extraktion“ und „Angriff“ angeheftet. In einer Zeit, in der die Abgrenzung in den Terms of Service (Terms of Service) extrem vage ist — etwa: Gilt das Scrapen eines öffentlichen GitHub-Repositorys, das von Claude generierten Code enthält, als „Destillation“? — wirkt diese einseitige Sperrung und die nicht ausreichend datenbasierte Anschuldigung eher wie ein PR-Verhalten aus kommerzieller Konkurrenzangst als wie eine Maßnahme aus Sicherheitsgründen.