Detección y prevención de ataques de destilación

Hemos identificado campañas a escala industrial por parte de tres laboratorios de IA—DeepSeek, Moonshot y MiniMax—para extraer ilícitamente las capacidades de Claude y mejorar sus propios modelos. Estos laboratorios generaron más de 16 millones de intercambios con Claude a través de aproximadamente 24.000 cuentas fraudulentas, en violación de nuestros términos de servicio y de las restricciones de acceso regional.

Estos laboratorios utilizaron una técnica llamada “destilación”, que consiste en entrenar un modelo menos capaz a partir de las salidas de uno más potente. La destilación es un método de entrenamiento ampliamente utilizado y legítimo. Por ejemplo, los laboratorios de IA de frontera destilan de forma rutinaria sus propios modelos para crear versiones más pequeñas y baratas para sus clientes. Pero la destilación también puede usarse con fines ilícitos: los competidores pueden utilizarla para adquirir capacidades potentes de otros laboratorios en una fracción del tiempo y a una fracción del coste que les llevaría desarrollarlas de manera independiente.

Estas campañas están creciendo en intensidad y sofisticación. La ventana para actuar es estrecha, y la amenaza se extiende más allá de cualquier empresa o región. Abordarla requerirá una acción rápida y coordinada entre actores del sector, responsables de políticas públicas y la comunidad global de IA.

Por qué importa la destilación

Los modelos destilados ilícitamente carecen de las salvaguardas necesarias, lo que crea riesgos significativos para la seguridad nacional. Anthropic y otras empresas estadounidenses construyen sistemas que impiden que actores estatales y no estatales utilicen la IA para, por ejemplo, desarrollar armas biológicas o llevar a cabo actividades cibernéticas maliciosas. Es poco probable que los modelos construidos mediante destilación ilícita conserven esas salvaguardas, lo que significa que capacidades peligrosas pueden proliferar con muchas protecciones eliminadas por completo.

Los laboratorios extranjeros que destilan modelos estadounidenses pueden luego introducir estas capacidades sin protección en sistemas militares, de inteligencia y de vigilancia, lo que permite a gobiernos autoritarios desplegar IA de frontera para operaciones cibernéticas ofensivas, campañas de desinformación y vigilancia masiva. Si los modelos destilados se publican como código abierto, este riesgo se multiplica, ya que estas capacidades se difunden libremente más allá del control de cualquier gobierno.

Ataques de destilación y controles de exportación

Anthropic ha apoyado de forma consistente los controles de exportación para ayudar a mantener el liderazgo de Estados Unidos en IA. Los ataques de destilación socavan esos controles al permitir que laboratorios extranjeros, incluidos aquellos sujetos al control del Partido Comunista Chino, reduzcan la ventaja competitiva que los controles de exportación están diseñados para preservar por otras vías.

Sin visibilidad sobre estos ataques, los aparentes avances rápidos logrados por estos laboratorios se interpretan erróneamente como evidencia de que los controles de exportación son ineficaces y pueden eludirse mediante innovación. En realidad, estos avances dependen en gran medida de capacidades extraídas de modelos estadounidenses, y ejecutar esta extracción a escala requiere acceso a chips avanzados. Por lo tanto, los ataques de destilación refuerzan la justificación de los controles de exportación: el acceso restringido a chips limita tanto el entrenamiento directo de modelos como la escala de la destilación ilícita.

Lo que encontramos

Las tres campañas de destilación detalladas a continuación siguieron un plan similar, utilizando cuentas fraudulentas y servicios proxy para acceder a Claude a escala mientras evadían la detección. El volumen, la estructura y el enfoque de los prompts eran distintos de los patrones de uso normales, lo que reflejaba una extracción deliberada de capacidades en lugar de un uso legítimo.

Atribuimos cada campaña a un laboratorio específico con alta confianza mediante correlación de direcciones IP, metadatos de solicitudes, indicadores de infraestructura y, en algunos casos, corroboración de socios del sector que observaron los mismos actores y comportamientos en sus plataformas. Cada campaña se centró en las capacidades más diferenciadas de Claude: razonamiento agente (agentic reasoning), uso de herramientas y programación.

DeepSeek

Escala: Más de 150.000 intercambios

La operación se centró en:

  • Capacidades de razonamiento en tareas diversas
  • Tareas de calificación basadas en rúbricas que hicieron que Claude funcionara como un modelo de recompensa para aprendizaje por refuerzo
  • Crear alternativas seguras frente a la censura para consultas sensibles a políticas

DeepSeek generó tráfico sincronizado entre cuentas. Patrones idénticos, métodos de pago compartidos y una temporización coordinada sugirieron “balanceo de carga” para aumentar el rendimiento, mejorar la fiabilidad y evitar la detección.

En una técnica notable, sus prompts pedían a Claude imaginar y articular el razonamiento interno detrás de una respuesta ya completada y escribirlo paso a paso, generando efectivamente datos de entrenamiento de cadena de pensamiento a escala. También observamos tareas en las que se utilizó a Claude para generar alternativas seguras frente a la censura para consultas políticamente sensibles, como preguntas sobre disidentes, líderes del partido o autoritarismo, probablemente con el fin de entrenar los propios modelos de DeepSeek para desviar conversaciones de temas censurados. Al examinar los metadatos de las solicitudes, pudimos rastrear estas cuentas hasta investigadores específicos del laboratorio.

Moonshot AI

Escala: Más de 3,4 millones de intercambios

La operación se centró en:

  • Razonamiento agente y uso de herramientas
  • Programación y análisis de datos
  • Desarrollo de agentes de uso de ordenador
  • Visión por computador

Moonshot (modelos Kimi) empleó cientos de cuentas fraudulentas que abarcaban múltiples vías de acceso. La variedad de tipos de cuentas hizo que la campaña fuera más difícil de detectar como una operación coordinada. Atribuimos la campaña mediante metadatos de solicitudes, que coincidían con los perfiles públicos de personal sénior de Moonshot. En una fase posterior, Moonshot utilizó un enfoque más específico, intentando extraer y reconstruir las trazas de razonamiento de Claude.

MiniMax

Escala: Más de 13 millones de intercambios

La operación se centró en:

  • Programación agente
  • Uso y orquestación de herramientas

Atribuimos la campaña a MiniMax mediante metadatos de solicitudes e indicadores de infraestructura, y confirmamos la cronología frente a su hoja de ruta pública de producto. Detectamos esta campaña mientras aún estaba activa—antes de que MiniMax lanzara el modelo que estaba entrenando—lo que nos dio una visibilidad sin precedentes del ciclo de vida de los ataques de destilación, desde la generación de datos hasta el lanzamiento del modelo. Cuando lanzamos un nuevo modelo durante la campaña activa de MiniMax, pivotaron en 24 horas, redirigiendo casi la mitad de su tráfico para capturar capacidades de nuestro sistema más reciente.

Cómo acceden los destiladores a modelos de frontera

Por razones de seguridad nacional, Anthropic actualmente no ofrece acceso comercial a Claude en China, ni a filiales de sus empresas ubicadas fuera del país.

Para eludir esto, los laboratorios utilizan servicios proxy comerciales que revenden acceso a Claude y a otros modelos de IA de frontera a escala. Estos servicios operan lo que llamamos arquitecturas de “clúster hidra”: redes extensas de cuentas fraudulentas que distribuyen el tráfico a través de nuestra API y también de plataformas cloud de terceros. La amplitud de estas redes implica que no existen puntos únicos de fallo. Cuando se prohíbe una cuenta, otra ocupa su lugar. En un caso, una sola red proxy gestionó simultáneamente más de 20.000 cuentas fraudulentas, mezclando tráfico de destilación con solicitudes de clientes no relacionadas para dificultar la detección.

Una vez asegurado el acceso, los laboratorios generan grandes volúmenes de prompts cuidadosamente diseñados para extraer capacidades específicas del modelo. El objetivo es recopilar respuestas de alta calidad para el entrenamiento directo del modelo o generar decenas de miles de tareas únicas necesarias para ejecutar aprendizaje por refuerzo. Lo que distingue un ataque de destilación del uso normal es el patrón. Un prompt como el siguiente (que aproxima prompts similares que hemos visto usados repetitivamente y a escala) puede parecer benigno por sí solo:

Eres un analista de datos experto que combina rigor estadístico con un profundo conocimiento del dominio. Tu objetivo es ofrecer insights basados en datos —no resúmenes ni visualizaciones— fundamentados en datos reales y respaldados por un razonamiento completo y transparente.

Pero cuando variaciones de ese prompt llegan decenas de miles de veces a través de cientos de cuentas coordinadas, todas dirigidas a la misma capacidad estrecha, el patrón se vuelve claro. Volumen masivo concentrado en unas pocas áreas, estructuras altamente repetitivas y contenido que se corresponde directamente con lo más valioso para entrenar un modelo de IA son las señas distintivas de un ataque de destilación.

Cómo estamos respondiendo

Seguimos invirtiendo fuertemente en defensas que hacen que estos ataques de destilación sean más difíciles de ejecutar y más fáciles de identificar. Entre ellas:

  • Detección. Hemos construido varios clasificadores y sistemas de huellas dactilares de comportamiento diseñados para identificar patrones de ataque de destilación en el tráfico de la API. Esto incluye la detección de la elicitación de cadena de pensamiento utilizada para construir datos de entrenamiento de razonamiento. También hemos construido herramientas de detección para identificar actividad coordinada a través de grandes cantidades de cuentas.
  • Intercambio de inteligencia . Estamos compartiendo indicadores técnicos con otros laboratorios de IA, proveedores cloud y autoridades pertinentes. Esto ofrece una visión más holística del panorama de la destilación.
  • Controles de acceso. Hemos reforzado la verificación para cuentas educativas, programas de investigación de seguridad y organizaciones emergentes (startups)—las vías más comúnmente explotadas para crear cuentas fraudulentas.
  • Contramedidas. Estamos desarrollando salvaguardas a nivel de producto, API y modelo diseñadas para reducir la eficacia de las salidas del modelo para la destilación ilícita, sin degradar la experiencia para clientes legítimos.

Pero ninguna empresa puede resolver esto por sí sola. Como señalamos anteriormente, los ataques de destilación a esta escala requieren una respuesta coordinada en toda la industria de IA, proveedores cloud y responsables de políticas públicas. Publicamos esto para poner la evidencia a disposición de todos los que tienen interés en el resultado.