اكتشاف هجمات التقطير ومنعها

لقد حددنا حملات على نطاق صناعي نفذتها ثلاثة مختبرات للذكاء الاصطناعي—DeepSeek وMoonshot وMiniMax—لاستخراج قدرات Claude بصورة غير مشروعة لتحسين نماذجها الخاصة. وقد أنشأت هذه المختبرات أكثر من 16 مليون تفاعل مع Claude عبر نحو 24,000 حساب احتيالي، في انتهاك لشروط الخدمة لدينا وقيود الوصول الإقليمية.

استخدمت هذه المختبرات تقنية تُسمّى «التقطير (distillation)»، والتي تتضمن تدريب نموذج أقل قدرة على مخرجات نموذج أقوى. التقطير أسلوب تدريب شائع ومشروع. على سبيل المثال، تقوم مختبرات الذكاء الاصطناعي الرائدة عادةً بتقطير نماذجها لإنشاء نسخ أصغر وأقل تكلفة لعملائها. لكن يمكن أيضًا استخدام التقطير لأغراض غير مشروعة: إذ يمكن للمنافسين استخدامه لاكتساب قدرات قوية من مختبرات أخرى في جزء يسير من الوقت وبجزء يسير من التكلفة مقارنةً بما يتطلبه تطويرها بشكل مستقل.

تزداد هذه الحملات شدةً وتعقيدًا. نافذة التحرك ضيقة، والتهديد يتجاوز أي شركة أو منطقة بعينها. والتصدي له سيتطلب عملًا سريعًا ومنسقًا بين لاعبي القطاع وصنّاع السياسات ومجتمع الذكاء الاصطناعي العالمي.

لماذا يهم التقطير

تفتقر النماذج المُقطّرة بصورة غير مشروعة إلى الضمانات اللازمة، ما يخلق مخاطر كبيرة على الأمن القومي. تبني Anthropic وغيرها من الشركات الأمريكية أنظمة تمنع الجهات الحكومية وغير الحكومية من استخدام الذكاء الاصطناعي، مثلًا، لتطوير أسلحة بيولوجية أو تنفيذ أنشطة سيبرانية خبيثة. ومن غير المرجح أن تحتفظ النماذج المبنية عبر التقطير غير المشروع بهذه الضمانات، ما يعني أن القدرات الخطرة يمكن أن تنتشر مع تجريد العديد من وسائل الحماية بالكامل.

يمكن للمختبرات الأجنبية التي تُقطّر النماذج الأمريكية بعد ذلك إدخال هذه القدرات غير المحمية إلى أنظمة عسكرية واستخباراتية ومراقبة—مما يمكّن الحكومات الاستبدادية من نشر الذكاء الاصطناعي الرائد لعمليات سيبرانية هجومية وحملات تضليل ومراقبة جماعية. وإذا جرى فتح مصدر النماذج المُقطّرة (open-sourced)، فإن هذا الخطر يتضاعف مع انتشار هذه القدرات بحرية خارج سيطرة أي حكومة واحدة.

هجمات التقطير وضوابط التصدير

لقد دعمت Anthropic باستمرار ضوابط التصدير للمساعدة في الحفاظ على تقدم أمريكا في الذكاء الاصطناعي. تقوّض هجمات التقطير تلك الضوابط عبر تمكين المختبرات الأجنبية—بما في ذلك الخاضعة لسيطرة الحزب الشيوعي الصيني—من تقليص ميزة التفوق التنافسية التي صُممت ضوابط التصدير للحفاظ عليها بوسائل أخرى.

من دون رؤية واضحة لهذه الهجمات، تُفسَّر التقدّمات السريعة الظاهرية التي تحققها هذه المختبرات بشكل خاطئ على أنها دليل على أن ضوابط التصدير غير فعّالة ويمكن الالتفاف عليها عبر الابتكار. في الواقع، تعتمد هذه التقدمات إلى حد كبير على قدرات جرى استخراجها من نماذج أمريكية، ويتطلب تنفيذ هذا الاستخراج على نطاق واسع الوصول إلى رقائق متقدمة. ولذلك، تعزز هجمات التقطير مبررات ضوابط التصدير: إذ يحد تقييد الوصول إلى الرقائق من كلٍّ من تدريب النماذج مباشرةً ومن نطاق التقطير غير المشروع.

ما الذي وجدناه

اتبعت حملات التقطير الثلاث المفصلة أدناه نهجًا متشابهًا، مستخدمةً حسابات احتيالية وخدمات وكيلة (proxy) للوصول إلى Claude على نطاق واسع مع تفادي الاكتشاف. كان حجم المطالبات وبنيتها وتركيزها مختلفًا عن أنماط الاستخدام العادية، بما يعكس استخراجًا متعمدًا للقدرات بدلًا من استخدام مشروع.

عزونا كل حملة إلى مختبر محدد بثقة عالية عبر ترابط عناوين IP وبيانات تعريف الطلبات ومؤشرات البنية التحتية، وفي بعض الحالات عبر تأكيد من شركاء في القطاع لاحظوا الجهات الفاعلة والسلوكيات نفسها على منصاتهم. استهدفت كل حملة أكثر قدرات Claude تميّزًا: الاستدلال الوكيلي (agentic reasoning)، واستخدام الأدوات، والبرمجة.

DeepSeek

النطاق: أكثر من 150,000 تفاعل

استهدفت العملية:

  • قدرات الاستدلال عبر مهام متنوعة
  • مهام تقييم قائمة على rubrics جعلت Claude يعمل كنموذج مكافأة (reward model) للتعلم المعزز
  • إنشاء بدائل آمنة من الرقابة للاستفسارات الحساسة على مستوى السياسات

ولّدت DeepSeek حركة مرور متزامنة عبر الحسابات. وأشارت الأنماط المتطابقة وطرق الدفع المشتركة والتوقيت المنسق إلى «موازنة الحمل (load balancing)» لزيادة الإنتاجية وتحسين الاعتمادية وتفادي الاكتشاف.

في إحدى التقنيات البارزة، طلبت مطالباتهم من Claude أن يتخيل ويشرح الاستدلال الداخلي وراء إجابة مكتملة وأن يكتبها خطوة بخطوة—مما ولّد فعليًا بيانات تدريب سلسلة الأفكار (chain-of-thought) على نطاق واسع. كما رصدنا مهامًا استُخدم فيها Claude لتوليد بدائل آمنة من الرقابة لأسئلة سياسية حساسة مثل الأسئلة عن المعارضين أو قادة الحزب أو الاستبداد، على الأرجح بهدف تدريب نماذج DeepSeek الخاصة لتوجيه المحادثات بعيدًا عن الموضوعات الخاضعة للرقابة. ومن خلال فحص بيانات تعريف الطلبات، تمكّنا من تتبع هذه الحسابات إلى باحثين محددين في المختبر.

Moonshot AI

النطاق: أكثر من 3.4 مليون تفاعل

استهدفت العملية:

  • الاستدلال الوكيلي واستخدام الأدوات
  • البرمجة وتحليل البيانات
  • تطوير وكيل لاستخدام الكمبيوتر (computer-use agent)
  • الرؤية الحاسوبية (computer vision)

استخدمت Moonshot (نماذج Kimi) مئات الحسابات الاحتيالية عبر مسارات وصول متعددة. جعلت أنواع الحسابات المتنوعة الحملة أصعب في الاكتشاف كعملية منسقة. عزونا الحملة عبر بيانات تعريف الطلبات، والتي طابقت الملفات العامة لموظفين كبار في Moonshot. وفي مرحلة لاحقة، استخدمت Moonshot نهجًا أكثر استهدافًا، محاولةً استخراج وإعادة بناء آثار استدلال Claude.

MiniMax

النطاق: أكثر من 13 مليون تفاعل

استهدفت العملية:

  • البرمجة الوكيلية (agentic coding)
  • استخدام الأدوات والتنسيق (orchestration)

عزونا الحملة إلى MiniMax عبر بيانات تعريف الطلبات ومؤشرات البنية التحتية، وتحققنا من التوقيتات مقابل خارطة الطريق العامة لمنتجاتهم. رصدنا هذه الحملة بينما كانت لا تزال نشطة—قبل أن تطلق MiniMax النموذج الذي كانت تدربه—ما منحنا رؤية غير مسبوقة لدورة حياة هجمات التقطير، من توليد البيانات وصولًا إلى إطلاق النموذج. وعندما أطلقنا نموذجًا جديدًا خلال حملة MiniMax النشطة، قامت بالتحول خلال 24 ساعة، مُعيدَةً توجيه ما يقرب من نصف حركة مرورها لالتقاط قدرات نظامنا الأحدث.

كيف يصل المُقطِّرون إلى النماذج الرائدة

لأسباب تتعلق بالأمن القومي، لا توفر Anthropic حاليًا وصولًا تجاريًا إلى Claude في الصين، أو إلى الشركات التابعة لهم الواقعة خارج البلاد.

للتحايل على ذلك، تستخدم المختبرات خدمات وكيلة تجارية تعيد بيع الوصول إلى Claude وغيره من نماذج الذكاء الاصطناعي الرائدة على نطاق واسع. تشغّل هذه الخدمات ما نسميه معماريات «عنقود الهيدرا (hydra cluster)»: شبكات مترامية من الحسابات الاحتيالية التي توزع حركة المرور عبر واجهة API الخاصة بنا وكذلك منصات سحابية تابعة لأطراف ثالثة. ويعني اتساع هذه الشبكات أنه لا توجد نقاط فشل منفردة. عند حظر حساب، يحل محله حساب جديد. في إحدى الحالات، أدارت شبكة وكيلة واحدة أكثر من 20,000 حساب احتيالي في وقت واحد، مزجت حركة مرور التقطير مع طلبات عملاء غير مرتبطة لجعل الاكتشاف أصعب.

وبمجرد تأمين الوصول، تولد المختبرات كميات كبيرة من المطالبات المصاغة بعناية والمصممة لاستخراج قدرات محددة من النموذج. والهدف إما جمع استجابات عالية الجودة للتدريب المباشر للنموذج، أو توليد عشرات الآلاف من المهام الفريدة اللازمة لتشغيل التعلم المعزز. ما يميز هجوم التقطير عن الاستخدام الطبيعي هو النمط. قد يبدو مطلب مثل التالي (والذي يقارب مطالبات مماثلة رأينا استخدامها بشكل متكرر وعلى نطاق واسع) غير ضار بمفرده:

أنت محلل بيانات خبير تجمع بين الصرامة الإحصائية والمعرفة العميقة بالمجال. هدفك هو تقديم رؤى مدفوعة بالبيانات — لا ملخصات أو تصورات — قائمة على بيانات حقيقية ومدعومة باستدلال كامل وشفاف.

لكن عندما تصل تنويعات من ذلك المطلب عشرات الآلاف من المرات عبر مئات الحسابات المنسقة، وجميعها تستهدف القدرة الضيقة نفسها، يصبح النمط واضحًا. إن الحجم الهائل المركّز في بضعة مجالات، والبُنى شديدة التكرار، والمحتوى الذي يطابق مباشرةً ما هو الأكثر قيمة لتدريب نموذج ذكاء اصطناعي—هي السمات المميزة لهجوم التقطير.

كيف نستجيب

نواصل الاستثمار بكثافة في دفاعات تجعل مثل هذه هجمات التقطير أصعب في التنفيذ وأسهل في التعرف عليها. وتشمل هذه:

  • الكشف. لقد بنينا عدة مصنفات (classifiers) وأنظمة بصمات سلوكية مصممة للتعرف على أنماط هجمات التقطير في حركة مرور API. ويشمل ذلك الكشف عن استدراج سلسلة الأفكار (chain-of-thought elicitation) المستخدم لبناء بيانات تدريب الاستدلال. كما بنينا أدوات كشف لتحديد النشاط المنسق عبر أعداد كبيرة من الحسابات.
  • مشاركة المعلومات . نشارك مؤشرات تقنية مع مختبرات ذكاء اصطناعي أخرى، ومزودي السحابة، والجهات المعنية ذات الصلة. يوفر ذلك صورة أكثر شمولًا لمشهد التقطير.
  • ضوابط الوصول. عززنا التحقق لحسابات التعليم، وبرامج أبحاث الأمن، ومنظمات الشركات الناشئة—وهي المسارات الأكثر استغلالًا لإعداد حسابات احتيالية.
  • التدابير المضادة. نطوّر ضمانات على مستوى المنتج وواجهة API وعلى مستوى النموذج، مصممة لتقليل فعالية مخرجات النموذج للتقطير غير المشروع، دون الإضرار بتجربة العملاء الشرعيين.

لكن لا يمكن لأي شركة حل هذا بمفردها. وكما أشرنا أعلاه، تتطلب هجمات التقطير بهذا الحجم استجابةً منسقة عبر صناعة الذكاء الاصطناعي ومزودي السحابة وصنّاع السياسات. ننشر هذا لإتاحة الأدلة للجميع ممن لهم مصلحة في النتيجة.