Recentemente, a conhecida empresa líder do setor de IA, a Anthropic, publicou uma declaração altamente controversa. Eles afirmam que três dos principais laboratórios de IA da China (DeepSeek, Moonshot e MiniMax) estão realizando “ataques de destilação” (Distillation Attacks) contra os modelos da Anthropic.
Segundo o relatório da Anthropic, essas organizações utilizaram mais de 24.000 contas fraudulentas para gerar mais de 16 milhões de interações (Exchanges), tentando extrair as capacidades subjacentes do modelo Claude e usá-las no treinamento de seus próprios modelos. No entanto, se analisarmos esses dados e essa lógica a partir das perspectivas de desenvolvedores técnicos, do mecanismo de funcionamento de APIs e de benchmarks do setor, veremos que essa acusação apresenta muitas falhas questionáveis.
1. O que é um “ataque de destilação”?
Antes de discutir a acusação, precisamos esclarecer o significado de “destilação” (Distillation) em aprendizado de máquina. A destilação tradicional de modelos refere-se a inserir prompts em um modelo mais inteligente e maior, obter seus dados de saída de alta qualidade e usar esses dados para treinar um novo modelo menor e de menor custo, de modo que ele adquira capacidades semelhantes. Essa é uma abordagem técnica muito comum no setor; por exemplo, a ferramenta de assistência à programação Cursor, sob a condição de pagar legalmente as taxas de API, utiliza os dados gerados para treinar seu próprio modelo de código mais leve.
“Ataque de destilação” é, por sua vez, um termo novo proposto pela Anthropic. Atualmente, os principais laboratórios são bastante cautelosos com comportamentos de destilação. Por exemplo, a OpenAI acredita que a DeepSeek teria usado dados do seu modelo o1 para treinar o modelo R1; por isso, a OpenAI decidiu ocultar o “traço de raciocínio” (Reasoning Trace) do modelo o1, exibindo apenas o resultado final. Em contrapartida, quando a Anthropic lançou inicialmente modelos com capacidade de raciocínio, não optou por ofuscar ou esconder essas etapas de raciocínio. Isso facilitou a depuração de sistemas por parte de desenvolvedores, mas também tornou seus dados mais valiosos para organizações que tentam realizar aprendizagem por reforço e treinamento por destilação.
2. Examinando os dados centrais: a armadilha de cálculo de “número de interações”
No relatório, a Anthropic listou dados específicos de “provas” contra cada laboratório, mas, do ponto de vista do bom senso técnico, esses volumes não são grandes — e podem até ser considerados insignificantes:
- DeepSeek: acusada de realizar cerca de 150.000 interações.
- Moonshot (月之暗面): acusada de realizar cerca de 3,4 milhões de interações.
- MiniMax: acusada de realizar cerca de 13 milhões de interações.
O efeito de amplificação do volume de requisições causado por Tool Calls
A chave para entender esses números está na definição de “interação (Exchange)” adotada pela Anthropic. Em aplicações modernas de Agent (agente inteligente), as chamadas de ferramentas (Tool Calls) podem ampliar uma única solicitação do usuário para dezenas ou até centenas de interações.
Quando um modelo é solicitado a executar uma tarefa complexa (como “atualizar o código da página inicial para incluir novos preços”), o fluxo de trabalho é o seguinte:
- O modelo solicita a busca de arquivos relevantes (fim da 1ª interação, conexão encerrada).
- O sistema executa a busca e envia de volta ao modelo todo o histórico completo e os resultados (2ª interação).
- O modelo solicita a leitura de alguns arquivos específicos (3ª interação).
- O sistema retorna o conteúdo dos arquivos, e o modelo finalmente gera sugestões de modificação de código (4ª e interações subsequentes).
Se múltiplas buscas ou análises complexas de um repositório de código estiverem habilitadas, um prompt simples do usuário pode facilmente se transformar em centenas de “interações” consecutivas.
Análise combinando benchmarks e produtos reais
- As 150 mil interações da DeepSeek: para uma aplicação de chat de IA de pequeno ou médio porte, gerar 160 mil requisições por dia é um volume bastante básico. Se usado para rodar benchmarks comuns de modelos (Benchmark, como o SnitchBench), 150 mil interações seriam apenas suficientes para executar completamente 2 a 3 rodadas de teste. Todos os laboratórios precisam rodar com frequência APIs de concorrentes para calibrar seus benchmarks internos.
- Milhões de interações da Moonshot e da MiniMax: tomando como exemplo o conhecido benchmark de programação SWE-bench, ele contém cerca de 2.300 tarefas. Se, no teste, for dada ao modelo a capacidade de chamar ferramentas, estimando de forma conservadora que cada tarefa gere 50 interações de Tool Calls, então executar uma única rodada do SWE-bench exigiria 115.000 interações. Rodar apenas 30 rodadas de benchmark já alcança facilmente a ordem de grandeza de 3,4 milhões de interações.
- Consumo legítimo do lado do produto: a MiniMax já teve produtos de Agent voltados ao usuário (como serviços que integravam Gemini e outros modelos de terceiros). Se esses produtos precisarem executar pesquisa profunda e múltiplas recuperações de dados, 13 milhões de interações é um número muito fácil de alcançar em aplicações comerciais normais voltadas ao público.
Além disso, a Anthropic mencionou que, quando eles lançaram um novo modelo, a MiniMax redirecionou quase metade do tráfego para o novo modelo em 24 horas. Isso, na verdade, é totalmente compatível com a lógica de comportamento do usuário — quando a interface (UI) exibe um botão para alternar para o mais novo modelo flagship, a maioria do tráfego de usuários reais naturalmente tende a migrar rapidamente para o novo modelo.
3. O paradoxo da lógica de segurança e o pânico do código aberto
A Anthropic afirma que modelos construídos por destilação ilegal removeriam as proteções de segurança do modelo original, criando riscos à segurança nacional (por exemplo, serem usados para desenvolver armas biológicas).
Essa afirmação contém um paradoxo lógico evidente: se os mecanismos de segurança do próprio modelo da Anthropic fossem realmente eficazes, ele deveria recusar, na origem, gerar conhecimento sobre armas biológicas. Se o modelo base já recusa solicitações maliciosas, como um atacante conseguiria “destilar”, apenas inserindo prompts, uma capacidade perigosa que o modelo simplesmente não fornece?
Além disso, o relatório da Anthropic expõe uma forte rejeição a modelos “open-source/open-weight (Open-weight)”, sugerindo que modelos de destilação de código aberto fariam o risco sair do controle. Vale notar que a Anthropic é atualmente o único grande laboratório que nunca publicou nenhum modelo com pesos abertos (OpenAI, Google e diversos laboratórios chineses já publicaram modelos open-source). Ironicamente, há evidências de que a própria Anthropic também utilizou, no treinamento, métodos inventados em artigos técnicos publicados publicamente pela DeepSeek em 2024.
4. A verdade sobre os clusters de proxy (Hydra-clusters)
O único fenômeno objetivo relativamente confiável no relatório é: de fato, existe na China um grande volume de acesso de alta frequência ao modelo Claude usando serviços comerciais de proxy e a arquitetura de “clusters hidra (Hydra-cluster)”.
A razão fundamental por trás disso é que a Anthropic impôs bloqueios regionais rigorosos e restrições de acesso à China. Para contornar essas limitações, alguns provedores de proxy de terceiros distribuem requisições registrando um grande número de contas e até agregam dados ao oferecer interfaces proxy baratas para o Claude, treinando, em seguida, seus próprios modelos pequenos para subsidiar os custos do proxy. Embora esse comportamento exista objetivamente, atribuí-lo diretamente a laboratórios de IA líderes como a DeepSeek como uma ação organizacional oficial não só carece de evidências conclusivas, como também os pequenos volumes de dados divulgados não sustentam essa grande acusação.
A Anthropic apresentou um trecho de “prompt típico” que supostamente seria usado para destilação como evidência, cujo conteúdo exige que o modelo atue como um “analista de dados especialista” e “forneça insights baseados em dados reais e raciocínio transparente”. Do ponto de vista técnico, isso é simplesmente um prompt de sistema (System Prompt) padrão e legítimo de um Agent voltado à pesquisa, sendo difícil caracterizá-lo como um ataque de destilação malicioso apenas com base nisso.
5. Conclusão: fronteiras nebulosas e padrões duplos
Todo o incidente expõe as contradições profundas que a indústria de IA enfrenta atualmente. Os modelos gigantes de empresas como Anthropic e OpenAI têm dados de treinamento inicial obtidos por meio da coleta em larga escala de conteúdo público da internet (inclusive conteúdo com copyright). Foram justamente essas práticas de coleta por parte das grandes empresas que fizeram com que os dados da internet se tornassem cada vez mais fechados.
No entanto, quando outras empresas tentam aproveitar os dados de saída desses modelos, são imediatamente rotuladas como “extração ilegal” e “ataque”. No cenário atual, em que os Terms of Service (termos de serviço) são extremamente vagos — por exemplo, coletar um repositório público do GitHub que contém código gerado pelo Claude conta como “destilação”? — esse bloqueio unilateral e acusações sem sustentação de dados parecem, mais do que uma consideração de segurança, uma ação de relações públicas motivada por ansiedade competitiva comercial.