Identificamos campanhas em escala industrial conduzidas por três laboratórios de IA — DeepSeek, Moonshot e MiniMax — para extrair ilicitamente as capacidades do Claude e aprimorar seus próprios modelos. Esses laboratórios geraram mais de 16 milhões de interações com o Claude por meio de aproximadamente 24.000 contas fraudulentas, em violação dos nossos termos de serviço e das restrições regionais de acesso.
Esses laboratórios usaram uma técnica chamada “destilação” (“distillation”), que envolve treinar um modelo menos capaz com base nas saídas de um modelo mais forte. A destilação é um método de treinamento amplamente utilizado e legítimo. Por exemplo, laboratórios de IA de fronteira rotineiramente destilam seus próprios modelos para criar versões menores e mais baratas para seus clientes. Mas a destilação também pode ser usada para fins ilícitos: concorrentes podem usá-la para adquirir capacidades poderosas de outros laboratórios em uma fração do tempo e a uma fração do custo que levaria para desenvolvê-las de forma independente.
Essas campanhas estão crescendo em intensidade e sofisticação. A janela para agir é estreita, e a ameaça vai além de qualquer empresa ou região específica. Enfrentá-la exigirá ação rápida e coordenada entre participantes da indústria, formuladores de políticas e a comunidade global de IA.
Por que a destilação importa
Modelos destilados ilicitamente não têm salvaguardas necessárias, criando riscos significativos à segurança nacional. A Anthropic e outras empresas dos EUA constroem sistemas que impedem que atores estatais e não estatais usem IA para, por exemplo, desenvolver armas biológicas ou realizar atividades cibernéticas maliciosas. Modelos construídos por meio de destilação ilícita provavelmente não manterão essas salvaguardas, o que significa que capacidades perigosas podem se proliferar com muitas proteções completamente removidas.
Laboratórios estrangeiros que destilam modelos americanos podem então incorporar essas capacidades desprotegidas em sistemas militares, de inteligência e de vigilância — permitindo que governos autoritários empreguem IA de fronteira para operações cibernéticas ofensivas, campanhas de desinformação e vigilância em massa. Se modelos destilados forem disponibilizados como open source, esse risco se multiplica, pois essas capacidades se espalham livremente para além do controle de qualquer governo.
Ataques de destilação e controles de exportação
A Anthropic tem apoiado consistentemente controles de exportação para ajudar a manter a liderança dos EUA em IA. Ataques de destilação minam esses controles ao permitir que laboratórios estrangeiros, inclusive aqueles sujeitos ao controle do Partido Comunista Chinês, reduzam a vantagem competitiva que os controles de exportação foram concebidos para preservar por outros meios.
Sem visibilidade sobre esses ataques, os avanços aparentemente rápidos alcançados por esses laboratórios são incorretamente interpretados como evidência de que os controles de exportação são ineficazes e podem ser contornados pela inovação. Na realidade, esses avanços dependem, em parte significativa, de capacidades extraídas de modelos americanos, e executar essa extração em escala exige acesso a chips avançados. Ataques de destilação, portanto, reforçam a justificativa para controles de exportação: o acesso restrito a chips limita tanto o treinamento direto de modelos quanto a escala da destilação ilícita.
O que encontramos
As três campanhas de destilação detalhadas abaixo seguiram um roteiro semelhante, usando contas fraudulentas e serviços de proxy para acessar o Claude em escala enquanto evitavam a detecção. O volume, a estrutura e o foco dos prompts eram distintos dos padrões normais de uso, refletindo extração deliberada de capacidades, e não uso legítimo.
Atribuímos cada campanha a um laboratório específico com alta confiança por meio de correlação de endereços IP, metadados de requisições, indicadores de infraestrutura e, em alguns casos, corroboração de parceiros da indústria que observaram os mesmos atores e comportamentos em suas plataformas. Cada campanha mirou as capacidades mais diferenciadas do Claude: raciocínio agêntico, uso de ferramentas e programação.
DeepSeek
Escala: mais de 150.000 interações
A operação teve como alvo:
- Capacidades de raciocínio em tarefas diversas
- Tarefas de avaliação baseadas em rubricas que faziam o Claude funcionar como um modelo de recompensa para aprendizado por reforço
- Criação de alternativas seguras para censura (“censorship-safe”) a consultas sensíveis a políticas
A DeepSeek gerou tráfego sincronizado entre contas. Padrões idênticos, métodos de pagamento compartilhados e temporização coordenada sugeriram “balanceamento de carga” (“load balancing”) para aumentar a vazão, melhorar a confiabilidade e evitar a detecção.
Em uma técnica notável, seus prompts pediam ao Claude que imaginasse e articulasse o raciocínio interno por trás de uma resposta concluída e o escrevesse passo a passo — efetivamente gerando dados de treinamento de cadeia de raciocínio (“chain-of-thought”) em escala. Também observamos tarefas em que o Claude foi usado para gerar alternativas seguras para censura a consultas politicamente sensíveis, como perguntas sobre dissidentes, líderes do partido ou autoritarismo, provavelmente para treinar os próprios modelos da DeepSeek a conduzir conversas para longe de tópicos censurados. Ao examinar metadados de requisição, conseguimos rastrear essas contas até pesquisadores específicos do laboratório.
Moonshot AI
Escala: mais de 3,4 milhões de interações
A operação teve como alvo:
- Raciocínio agêntico e uso de ferramentas
- Programação e análise de dados
- Desenvolvimento de agentes de uso do computador
- Visão computacional
A Moonshot (modelos Kimi) empregou centenas de contas fraudulentas abrangendo múltiplos caminhos de acesso. Tipos variados de contas tornaram a campanha mais difícil de detectar como uma operação coordenada. Atribuímos a campanha por meio de metadados de requisição, que corresponderam a perfis públicos de funcionários seniores da Moonshot. Em uma fase posterior, a Moonshot adotou uma abordagem mais direcionada, tentando extrair e reconstruir os rastros de raciocínio (“reasoning traces”) do Claude.
MiniMax
Escala: mais de 13 milhões de interações
A operação teve como alvo:
- Programação agêntica
- Uso de ferramentas e orquestração
Atribuímos a campanha à MiniMax por meio de metadados de requisição e indicadores de infraestrutura, e confirmamos os timings com base no roteiro público (“product roadmap”) deles. Detectamos essa campanha enquanto ela ainda estava ativa — antes de a MiniMax lançar o modelo que estava treinando — o que nos deu visibilidade sem precedentes sobre o ciclo de vida de ataques de destilação, desde a geração de dados até o lançamento do modelo. Quando lançamos um novo modelo durante a campanha ativa da MiniMax, eles mudaram de estratégia (“pivotaram”) em até 24 horas, redirecionando quase metade do tráfego para capturar capacidades do nosso sistema mais recente.
Como destiladores acessam modelos de fronteira
Por motivos de segurança nacional, a Anthropic atualmente não oferece acesso comercial ao Claude na China, nem a subsidiárias de suas empresas localizadas fora do país.
Para contornar isso, laboratórios usam serviços comerciais de proxy que revendem acesso ao Claude e a outros modelos de IA de fronteira em escala. Esses serviços operam o que chamamos de arquiteturas de “cluster hidra” (“hydra cluster”): redes extensas de contas fraudulentas que distribuem tráfego pela nossa API, bem como por plataformas de nuvem de terceiros. A abrangência dessas redes significa que não há pontos únicos de falha. Quando uma conta é banida, uma nova assume seu lugar. Em um caso, uma única rede de proxy gerenciou simultaneamente mais de 20.000 contas fraudulentas, misturando tráfego de destilação com requisições de clientes não relacionadas para dificultar a detecção.
Uma vez garantido o acesso, os laboratórios geram grandes volumes de prompts cuidadosamente elaborados para extrair capacidades específicas do modelo. O objetivo é coletar respostas de alta qualidade para treinamento direto do modelo ou gerar dezenas de milhares de tarefas únicas necessárias para executar aprendizado por reforço. O que distingue um ataque de destilação do uso normal é o padrão. Um prompt como o seguinte (que se aproxima de prompts semelhantes que vimos sendo usados repetidamente e em escala) pode parecer benigno por si só:
Você é um analista de dados especialista que combina rigor estatístico com profundo conhecimento de domínio. Seu objetivo é entregar insights orientados por dados — não resumos ou visualizações — fundamentados em dados reais e sustentados por raciocínio completo e transparente.
Mas quando variações desse prompt chegam dezenas de milhares de vezes em centenas de contas coordenadas, todas mirando a mesma capacidade estreita, o padrão fica claro. Volume massivo concentrado em poucas áreas, estruturas altamente repetitivas e conteúdo que mapeia diretamente para o que é mais valioso para treinar um modelo de IA são as marcas de um ataque de destilação.
Como estamos respondendo
Continuamos a investir pesadamente em defesas que tornam esses ataques de destilação mais difíceis de executar e mais fáceis de identificar. Isso inclui:
- Detecção. Construímos vários classificadores e sistemas de impressão digital comportamental (“behavioral fingerprinting”) projetados para identificar padrões de ataques de destilação no tráfego de API. Isso inclui a detecção de elicitação de cadeia de raciocínio (“chain-of-thought elicitation”) usada para construir dados de treinamento de raciocínio. Também desenvolvemos ferramentas de detecção para identificar atividade coordenada em grandes números de contas.
- Compartilhamento de inteligência . Estamos compartilhando indicadores técnicos com outros laboratórios de IA, provedores de nuvem e autoridades relevantes. Isso fornece uma visão mais holística do panorama de destilação.
- Controles de acesso. Reforçamos a verificação para contas educacionais, programas de pesquisa em segurança e organizações de startups — os caminhos mais comumente explorados para configurar contas fraudulentas.
- Contramedidas. Estamos desenvolvendo salvaguardas em nível de Produto, API e modelo, projetadas para reduzir a eficácia das saídas do modelo para destilação ilícita, sem degradar a experiência de clientes legítimos.
Mas nenhuma empresa consegue resolver isso sozinha. Como observamos acima, ataques de destilação nessa escala exigem uma resposta coordenada em toda a indústria de IA, provedores de nuvem e formuladores de políticas. Estamos publicando isto para tornar as evidências disponíveis a todos que têm interesse no resultado.