Wir haben industrielle Kampagnen von drei KI-Laboren—DeepSeek, Moonshot und MiniMax—identifiziert, die darauf abzielten, Claudes Fähigkeiten unrechtmäßig zu extrahieren, um ihre eigenen Modelle zu verbessern. Diese Labore erzeugten über 16 Millionen Interaktionen mit Claude über ungefähr 24.000 betrügerische Konten hinweg—unter Verstoß gegen unsere Nutzungsbedingungen und regionale Zugriffsbeschränkungen.
Diese Labore nutzten eine Technik namens „Distillation“ (Destillation), bei der ein weniger leistungsfähiges Modell anhand der Ausgaben eines stärkeren trainiert wird. Distillation ist eine weit verbreitete und legitime Trainingsmethode. So destillieren etwa führende KI-Labore routinemäßig ihre eigenen Modelle, um kleinere, günstigere Versionen für ihre Kunden zu erstellen. Distillation kann jedoch auch für unrechtmäßige Zwecke eingesetzt werden: Wettbewerber können sie nutzen, um mächtige Fähigkeiten anderer Labore in einem Bruchteil der Zeit und zu einem Bruchteil der Kosten zu übernehmen, die nötig wären, um sie unabhängig zu entwickeln.
Diese Kampagnen nehmen an Intensität und Raffinesse zu. Das Zeitfenster zum Handeln ist eng, und die Bedrohung geht über jedes einzelne Unternehmen oder jede Region hinaus. Ihre Eindämmung erfordert schnelles, koordiniertes Handeln von Branchenakteuren, politischen Entscheidungsträgern und der globalen KI-Community.
Warum Distillation wichtig ist
Illegitim destillierte Modelle verfügen nicht über notwendige Schutzmechanismen und schaffen erhebliche Risiken für die nationale Sicherheit. Anthropic und andere US-Unternehmen entwickeln Systeme, die staatliche und nichtstaatliche Akteure daran hindern, KI beispielsweise zur Entwicklung von Biowaffen oder zur Durchführung bösartiger Cyberaktivitäten zu nutzen. Modelle, die durch illegitime Distillation entstehen, werden diese Schutzmechanismen wahrscheinlich nicht beibehalten, sodass gefährliche Fähigkeiten sich verbreiten können, während viele Schutzvorkehrungen vollständig entfernt sind.
Ausländische Labore, die amerikanische Modelle destillieren, können diese ungeschützten Fähigkeiten anschließend in Militär-, Geheimdienst- und Überwachungssysteme einspeisen—und so autoritären Regierungen ermöglichen, Frontier-KI (Frontier AI) für offensive Cyberoperationen, Desinformationskampagnen und Massenüberwachung einzusetzen. Wenn destillierte Modelle als Open Source veröffentlicht werden, vervielfacht sich dieses Risiko, da sich diese Fähigkeiten frei jenseits der Kontrolle einer einzelnen Regierung verbreiten.
Distillation-Angriffe und Exportkontrollen
Anthropic hat konsequent Exportkontrollen unterstützt, um Amerikas Vorsprung in der KI zu sichern. Distillation-Angriffe untergraben diese Kontrollen, indem sie ausländischen Laboren—einschließlich solcher, die der Kontrolle der Kommunistischen Partei Chinas unterliegen—ermöglichen, den Wettbewerbsvorteil, den Exportkontrollen über andere Mittel bewahren sollen, auf anderem Wege zu schließen.
Ohne Einblick in diese Angriffe werden die scheinbar schnellen Fortschritte dieser Labore fälschlicherweise als Beleg dafür gewertet, dass Exportkontrollen wirkungslos seien und sich durch Innovation umgehen ließen. In Wirklichkeit hängen diese Fortschritte zu einem erheblichen Teil von Fähigkeiten ab, die aus amerikanischen Modellen extrahiert wurden, und die Ausführung dieser Extraktion im großen Maßstab erfordert Zugang zu fortschrittlichen Chips. Distillation-Angriffe untermauern daher die Begründung für Exportkontrollen: Eingeschränkter Chipzugang begrenzt sowohl das direkte Modelltraining als auch den Umfang illegitimer Distillation.
Was wir festgestellt haben
Die drei unten beschriebenen Distillation-Kampagnen folgten einem ähnlichen Vorgehen und nutzten betrügerische Konten und Proxy-Dienste, um im großen Maßstab auf Claude zuzugreifen und dabei der Erkennung zu entgehen. Umfang, Struktur und Fokus der Prompts unterschieden sich klar von normalen Nutzungsmustern und spiegelten eine gezielte Fähigkeits-Extraktion wider, nicht legitime Nutzung.
Wir ordneten jede Kampagne mit hoher Sicherheit einem bestimmten Labor zu, basierend auf IP-Adresskorrelation, Request-Metadaten, Infrastrukturindikatoren und in einigen Fällen auf Bestätigung durch Industriepartner, die dieselben Akteure und Verhaltensweisen auf ihren Plattformen beobachteten. Jede Kampagne zielte auf Claudes am stärksten differenzierte Fähigkeiten ab: agentisches Denken, Tool-Nutzung und Programmieren.
DeepSeek
Umfang: Über 150.000 Interaktionen
Die Operation zielte ab auf:
- Denkfähigkeiten über vielfältige Aufgaben hinweg
- Rubrik-basiertes Bewerten, das Claude als Reward Model für Reinforcement Learning funktionieren ließ
- Das Erstellen zensur-sicherer Alternativen zu policy-sensitiven Anfragen
DeepSeek erzeugte synchronisierten Traffic über Konten hinweg. Identische Muster, geteilte Zahlungsmethoden und koordiniertes Timing deuteten auf „Load Balancing“ hin, um den Durchsatz zu erhöhen, die Zuverlässigkeit zu verbessern und Erkennung zu vermeiden.
In einer bemerkenswerten Technik forderten ihre Prompts Claude auf, sich das interne Denken hinter einer fertigen Antwort vorzustellen und es Schritt für Schritt auszuformulieren—wodurch effektiv Chain-of-Thought-Trainingsdaten (Chain-of-Thought) im großen Maßstab erzeugt wurden. Wir beobachteten außerdem Aufgaben, bei denen Claude genutzt wurde, um zensur-sichere Alternativen zu politisch sensiblen Anfragen zu generieren, etwa Fragen zu Dissidenten, Parteiführern oder Autoritarismus—wahrscheinlich, um DeepSeeks eigene Modelle darauf zu trainieren, Gespräche von zensierten Themen wegzulenken. Durch die Auswertung von Request-Metadaten konnten wir diese Konten bestimmten Forschern im Labor zuordnen.
Moonshot AI
Umfang: Über 3,4 Millionen Interaktionen
Die Operation zielte ab auf:
- Agentisches Denken und Tool-Nutzung
- Programmieren und Datenanalyse
- Entwicklung von Computer-Use-Agenten
- Computer Vision
Moonshot (Kimi-Modelle) setzte Hunderte betrügerische Konten über mehrere Zugriffswege hinweg ein. Unterschiedliche Kontotypen erschwerten es, die Kampagne als koordinierte Operation zu erkennen. Wir ordneten die Kampagne anhand von Request-Metadaten zu, die mit den öffentlichen Profilen leitender Moonshot-Mitarbeiter übereinstimmten. In einer späteren Phase nutzte Moonshot einen gezielteren Ansatz und versuchte, Claudes Reasoning-Traces (Reasoning-Traces) zu extrahieren und zu rekonstruieren.
MiniMax
Umfang: Über 13 Millionen Interaktionen
Die Operation zielte ab auf:
- Agentisches Programmieren
- Tool-Nutzung und Orchestrierung
Wir ordneten die Kampagne MiniMax anhand von Request-Metadaten und Infrastrukturindikatoren zu und bestätigten die Zeitpunkte anhand ihrer öffentlichen Produkt-Roadmap. Wir entdeckten diese Kampagne, während sie noch aktiv war—bevor MiniMax das Modell veröffentlichte, das es trainierte—und erhielten dadurch beispiellose Einblicke in den Lebenszyklus von Distillation-Angriffen, von der Datengenerierung bis zum Modell-Launch. Als wir während der aktiven Kampagne von MiniMax ein neues Modell veröffentlichten, schwenkten sie innerhalb von 24 Stunden um und leiteten nahezu die Hälfte ihres Traffics um, um Fähigkeiten aus unserem neuesten System abzugreifen.
Wie Distiller Zugang zu Frontier-Modellen erhalten
Aus Gründen der nationalen Sicherheit bietet Anthropic derzeit keinen kommerziellen Zugang zu Claude in China an—auch nicht für Tochtergesellschaften ihrer Unternehmen, die sich außerhalb des Landes befinden.
Um dies zu umgehen, nutzen Labore kommerzielle Proxy-Dienste, die Zugang zu Claude und anderen Frontier-KI-Modellen im großen Maßstab weiterverkaufen. Diese Dienste betreiben, was wir „Hydra-Cluster“-Architekturen nennen: weitverzweigte Netzwerke betrügerischer Konten, die Traffic sowohl über unsere API als auch über Cloud-Plattformen Dritter verteilen. Die Breite dieser Netzwerke bedeutet, dass es keine einzelnen Single Points of Failure gibt. Wenn ein Konto gesperrt wird, tritt ein neues an seine Stelle. In einem Fall verwaltete ein einzelnes Proxy-Netzwerk gleichzeitig mehr als 20.000 betrügerische Konten und mischte Distillation-Traffic mit nicht zusammenhängenden Kundenanfragen, um die Erkennung zu erschweren.
Sobald der Zugriff gesichert ist, erzeugen die Labore große Mengen sorgfältig gestalteter Prompts, die darauf ausgelegt sind, spezifische Fähigkeiten aus dem Modell zu extrahieren. Das Ziel ist entweder, hochwertige Antworten für direktes Modelltraining zu sammeln, oder Zehntausende einzigartiger Aufgaben zu generieren, die für Reinforcement Learning erforderlich sind. Was einen Distillation-Angriff von normaler Nutzung unterscheidet, ist das Muster. Ein Prompt wie der folgende (der ähnliche Prompts annähert, die wir repetitiv und im großen Maßstab verwendet gesehen haben) mag für sich genommen harmlos wirken:
Du bist ein Experte für Datenanalyse, der statistische Strenge mit tiefem Domänenwissen verbindet. Dein Ziel ist es, datengestützte Erkenntnisse zu liefern — keine Zusammenfassungen oder Visualisierungen —, die auf realen Daten beruhen und durch vollständiges und transparentes Denken gestützt werden.
Doch wenn Variationen dieses Prompts Zehntausende Male über Hunderte koordinierter Konten eingehen, alle ausgerichtet auf dieselbe eng umrissene Fähigkeit, wird das Muster deutlich. Massives Volumen, konzentriert auf wenige Bereiche, stark repetitive Strukturen und Inhalte, die direkt auf das abbilden, was für das Training eines KI-Modells am wertvollsten ist, sind die Kennzeichen eines Distillation-Angriffs.
Wie wir reagieren
Wir investieren weiterhin stark in Abwehrmaßnahmen, die solche Distillation-Angriffe schwerer ausführbar und leichter identifizierbar machen. Dazu gehören:
- Erkennung. Wir haben mehrere Klassifikatoren sowie Systeme zur Verhaltens-Fingerabdruckbildung entwickelt, um Distillation-Angriffsmuster im API-Traffic zu identifizieren. Dazu gehört die Erkennung von Chain-of-Thought-Elicitation (Chain-of-Thought-Elicitation), die genutzt wird, um Reasoning-Trainingsdaten zu konstruieren. Wir haben außerdem Erkennungstools entwickelt, um koordinierte Aktivität über große Zahlen von Konten hinweg zu identifizieren.
- Weitergabe von Erkenntnissen . Wir teilen technische Indikatoren mit anderen KI-Laboren, Cloud-Anbietern und zuständigen Behörden. Das liefert ein ganzheitlicheres Bild der Distillation-Landschaft.
- Zugriffskontrollen. Wir haben die Verifizierung für Bildungskonten, Sicherheitsforschungsprogramme und Startup-Organisationen verstärkt—jene Zugangswege, die am häufigsten zum Einrichten betrügerischer Konten ausgenutzt werden.
- Gegenmaßnahmen. Wir entwickeln Schutzmaßnahmen auf Produkt-, API- und Modellebene, die die Wirksamkeit von Modellausgaben für illegitime Distillation reduzieren sollen, ohne die Erfahrung für legitime Kunden zu beeinträchtigen.
Aber kein Unternehmen kann das allein lösen. Wie oben erwähnt, erfordern Distillation-Angriffe in diesem Maßstab eine koordinierte Reaktion in der KI-Industrie, bei Cloud-Anbietern und politischen Entscheidungsträgern. Wir veröffentlichen dies, um die Belege allen zugänglich zu machen, die ein Interesse am Ergebnis haben.