¿Tienen fundamento las acusaciones de Anthropic sobre el «ataque de destilación de modelos»?

Recientemente, Anthropic, una destacada empresa líder en el campo de la IA, publicó una declaración sumamente controvertida. Afirman que tres importantes laboratorios de IA de China (DeepSeek, Moonshot y MiniMax) están llevando a cabo “ataques de destilación” (Distillation Attacks) contra los modelos de Anthropic.

Según el informe de Anthropic, estas organizaciones utilizaron más de 24.000 cuentas fraudulentas para generar más de 16 millones de interacciones (Exchanges), intentando extraer las capacidades subyacentes del modelo Claude y usarlas en el entrenamiento de sus propios modelos. Sin embargo, si examinamos en profundidad estos datos y su lógica desde la perspectiva de desarrolladores técnicos, del mecanismo de funcionamiento de las API y de los benchmarks del sector, se descubre que esta acusación presenta numerosas grietas discutibles.

1. ¿Qué es un “ataque de destilación”?

Antes de abordar la acusación, necesitamos aclarar qué significa “destilación” (Distillation) en aprendizaje automático. La destilación tradicional de modelos se refiere a introducir prompts en un modelo más inteligente y grande, obtener datos de salida de alta calidad y utilizar esos datos para entrenar un nuevo modelo más pequeño y barato, de modo que adquiera capacidades similares. Esto es un procedimiento técnico muy común en la industria; por ejemplo, la herramienta de asistencia de programación Cursor, bajo la premisa de pagar legalmente las tarifas de la API, utiliza los datos generados para entrenar su propio modelo de código más ligero.

“Destilación de ataque” es, en cambio, un término nuevo propuesto por Anthropic. En la actualidad, los grandes laboratorios son muy cautelosos con los comportamientos de destilación. Por ejemplo, OpenAI considera que DeepSeek habría utilizado datos de su modelo o1 para entrenar el modelo R1, por lo que OpenAI decidió ocultar el “trazo de razonamiento” (Reasoning Trace) del modelo o1 y mostrar únicamente el resultado final. En contraste, cuando Anthropic lanzó inicialmente modelos con capacidad de razonamiento, no optó por ofuscar u ocultar estos pasos de razonamiento. Si bien esto facilita a los desarrolladores la depuración del sistema, también hace que sus datos sean más valiosos para organizaciones que intentan hacer aprendizaje por refuerzo y entrenamiento por destilación.

2. Examen de los datos clave: la trampa de cálculo de las “interacciones”

En su informe, Anthropic enumeró datos específicos como “pruebas” contra cada laboratorio, pero, desde el sentido común técnico, esos volúmenes no solo no son grandes, sino que incluso pueden considerarse insignificantes:

  • DeepSeek: acusado de realizar aproximadamente 150.000 interacciones.
  • Moonshot (月之暗面): acusado de realizar aproximadamente 3,4 millones de interacciones.
  • MiniMax: acusado de realizar aproximadamente 13 millones de interacciones.

El efecto amplificador de las llamadas a herramientas (Tool Calls) sobre el volumen de solicitudes

La clave para entender estas cifras está en la definición de “interacción (Exchange)” de Anthropic. En las aplicaciones modernas de Agent (agente inteligente), las llamadas a herramientas (Tool Calls) pueden amplificar una sola solicitud del usuario a decenas o incluso cientos de interacciones.

Cuando se le pide a un modelo que ejecute una tarea compleja (como “actualiza el código de la página principal para incluir nuevos precios”), el flujo de trabajo es el siguiente:

  1. El modelo solicita buscar archivos relacionados (termina la 1.ª interacción, se corta la conexión).
  2. El sistema ejecuta la búsqueda y envía de vuelta al modelo el historial completo y los resultados (2.ª interacción).
  3. El modelo solicita leer varios archivos específicos (3.ª interacción).
  4. El sistema devuelve el contenido de los archivos y el modelo finalmente genera sugerencias de modificación de código (4.ª y siguientes interacciones).

Si se habilitan búsquedas múltiples o un análisis complejo del repositorio de código, un prompt sencillo del usuario puede convertirse fácilmente en cientos de “interacciones” consecutivas.

Análisis combinando benchmarks y productos reales

  • Las 150.000 interacciones de DeepSeek: para una aplicación de chat de IA pequeña o mediana, generar 160.000 solicitudes en un día es un dato muy básico. Si se usa para ejecutar benchmarks habituales de modelos (Benchmark, como SnitchBench), 150.000 interacciones apenas alcanzan para ejecutar completamente 2 a 3 rondas de prueba. Todos los laboratorios necesitan ejecutar con frecuencia las API de competidores para calibrar sus benchmarks internos.
  • Interacciones de millones en Moonshot y MiniMax: tomando como ejemplo el conocido benchmark de programación SWE-bench, este incluye alrededor de 2.300 tareas. Si en la prueba se le otorga al modelo capacidad de llamadas a herramientas, estimando de forma conservadora que cada tarea genere 50 interacciones de llamadas a herramientas, completar una sola ejecución de SWE-bench requeriría 115.000 interacciones. Con solo ejecutar 30 rondas de benchmark, se puede alcanzar fácilmente el orden de magnitud de 3,4 millones de interacciones.
  • Consumo legítimo del lado de producto: MiniMax llegó a tener productos Agent orientados al usuario (como servicios que integraban Gemini y otros modelos de terceros). Si esos productos necesitan realizar investigación profunda y múltiples recuperaciones de datos, 13 millones de interacciones es una cifra muy fácil de alcanzar en una aplicación comercial normal de cara a usuarios.

Además, Anthropic menciona que cuando publicaron un nuevo modelo, MiniMax redirigió casi la mitad de su tráfico al nuevo modelo en 24 horas. Esto, en realidad, se ajusta totalmente a la lógica de comportamiento del usuario: cuando en la UI aparece un botón para cambiar al último modelo insignia, el tráfico de la gran mayoría de usuarios reales se inclina de manera natural y rápida hacia el nuevo modelo.

3. La paradoja de la lógica de seguridad y el pánico al open source

Anthropic afirma que los modelos construidos mediante destilación ilegal eliminarían las barreras de seguridad del modelo original, generando así riesgos para la seguridad nacional (por ejemplo, ser utilizados para desarrollar armas biológicas).

Esta afirmación contiene una paradoja lógica evidente: si los propios mecanismos de seguridad del modelo de Anthropic son realmente eficaces, entonces debería rechazar desde el origen la generación de conocimiento sobre armas biológicas. Si el modelo base ya rechaza las solicitudes maliciosas, ¿cómo podría un atacante “destilar” mediante prompts una capacidad peligrosa que el modelo de por sí no produce?

Además, el informe de Anthropic deja ver un fuerte rechazo hacia los modelos “de código abierto / de pesos abiertos (Open-weight)”, insinuando que los modelos de destilación open source harían que el riesgo se descontrole. Cabe destacar que Anthropic es actualmente el único laboratorio principal que no ha publicado ningún modelo de pesos abiertos (OpenAI, Google y numerosos laboratorios chinos sí han publicado modelos open source). Irónicamente, hay evidencia de que el propio Anthropic también utilizó en su entrenamiento un método de entrenamiento inventado por DeepSeek y publicado en un artículo técnico en 2024.

4. La verdad sobre los clústeres de proxy (Hydra-clusters)

El único fenómeno objetivo relativamente creíble en el informe es que: en China efectivamente existe una gran cantidad de comportamientos de acceso frecuente al modelo Claude utilizando servicios comerciales de proxy y una arquitectura de “clúster de hidra (Hydra-cluster)”.

La razón fundamental detrás de esto es que Anthropic ha implementado un estricto bloqueo regional y restricciones de acceso para China. Para eludir las restricciones, algunos intermediarios de terceros registran un gran número de cuentas para distribuir las solicitudes, e incluso, al ofrecer interfaces proxy de Claude a bajo costo, agregan datos y entrenan así sus propios modelos pequeños para subsidiar el costo del proxy. Aunque este comportamiento existe objetivamente, atribuirlo directamente a una acción organizativa oficial de laboratorios líderes como DeepSeek no solo carece de pruebas concluyentes, sino que el pequeño volumen de datos divulgado tampoco puede sostener una acusación tan grande.

Anthropic aporta como supuesta evidencia una “prompt típica” utilizada para destilación, cuyo contenido pide al modelo que interprete el papel de “analista experto de datos” y que “proporcione insights basados en datos reales y razonamiento transparente”. Desde un punto de vista técnico, esto es simplemente un prompt de sistema (System Prompt) estándar y legítimo para un Agent de investigación, y resulta difícil calificarlo como un ataque malicioso de destilación basándose solo en esto.

5. Conclusión: fronteras difusas y doble rasero

Todo este incidente expone las contradicciones profundas a las que se enfrenta actualmente la industria de la IA. Los grandes modelos de empresas como Anthropic y OpenAI se entrenan inicialmente con datos obtenidos mediante la captura masiva de contenido público de internet (incluso contenido con copyright). Precisamente esas prácticas de rastreo de las grandes empresas han hecho que los datos en internet se vuelvan cada vez más cerrados.

Sin embargo, cuando otras empresas intentan aprovechar los datos de salida de estos modelos, se les etiqueta de inmediato como “extracción ilegal” y “ataque”. En el contexto actual, en el que los Terms of Service (términos de servicio) son extremadamente ambiguos —por ejemplo, ¿capturar un repositorio público de GitHub que contiene código generado por Claude cuenta como “destilación”?—, este bloqueo unilateral y estas acusaciones sin respaldo de datos, más que una consideración de seguridad, parecen una acción de relaciones públicas basada en la ansiedad por la competencia comercial.