مؤخرًا، أصدرت Anthropic، وهي إحدى الشركات الرائدة المعروفة في مجال الذكاء الاصطناعي، بيانًا شديد الجدل. إذ زعمت أن ثلاثة مختبرات ذكاء اصطناعي رئيسية من الصين (DeepSeek وMoonshot وMiniMax) تقوم بتنفيذ «هجمات التقطير» (Distillation Attacks) ضد نماذج Anthropic.
وبحسب تقرير Anthropic، استخدمت هذه الجهات أكثر من 24,000 حساب احتيالي، وولّدت أكثر من 16 مليون تفاعل (Exchanges)، في محاولة لاستخراج القدرات الأساسية لنموذج Claude واستخدامها في تدريب نماذجها الخاصة. غير أنّه إذا قمنا بفحص هذه البيانات والمنطق من منظور المطوّر التقني وآليات عمل الـ API ومعايير القياس في الصناعة، سنجد أن هذا الاتهام يتضمن ثغرات عديدة قابلة للنقاش.
1. ما هي «هجمات التقطير»؟
قبل مناقشة الاتهام، علينا توضيح معنى «التقطير» (Distillation) في تعلّم الآلة. فتقطير النماذج التقليدي يعني إدخال مُطالبات (prompts) إلى نموذج أذكى وأكبر، للحصول على بيانات مخرجات عالية الجودة، ثم استخدام هذه البيانات لتدريب نموذج جديد أصغر حجمًا وأقل تكلفة ليكتسب قدرات مشابهة. وهذا أسلوب تقني شائع جدًا في الصناعة؛ فعلى سبيل المثال، أداة المساعدة البرمجية Cursor تقوم—في إطار دفع رسوم الـ API بشكل قانوني—باستخدام البيانات المتولدة لتدريب نموذج أكواد أخف وزنًا خاص بها.
أما «هجمات التقطير» فهو مصطلح جديد طرحته Anthropic. حاليًا تتعامل المختبرات الكبرى بحذر شديد مع سلوكيات التقطير. فعلى سبيل المثال، ترى OpenAI أن DeepSeek استخدمت بيانات نموذج o1 لتدريب نموذج R1، لذلك قررت OpenAI إخفاء «أثر الاستدلال» (Reasoning Trace) في نموذج o1 والاكتفاء بإخراج النتيجة النهائية. وعلى العكس، فإن Anthropic عند إطلاقها نماذج تمتلك قدرات الاستدلال في البداية لم تختر تشويش هذه الخطوات أو إخفاءها. ورغم أن هذا يسهل على المطورين تصحيح الأنظمة، فإنه يجعل بياناتهم أكثر قيمة للجهات التي تحاول إجراء التعلم التعزيزي وتدريب التقطير.
2. تمحيص البيانات الأساسية: فخّ حساب «عدد التفاعلات»
أوردت Anthropic في تقريرها بيانات «إدانة» محددة لكل مختبر، لكن وفقًا للمعرفة التقنية العامة فإن حجم هذه البيانات ليس كبيرًا فحسب، بل يمكن القول إنه ضئيل جدًا:
- DeepSeek: اتُّهمت بإجراء نحو 150,000 تفاعل.
- Moonshot (月之暗面): اتُّهمت بإجراء نحو 3.4 مليون تفاعل.
- MiniMax: اتُّهمت بإجراء نحو 13 مليون تفاعل.
أثر تضخيم حجم الطلبات عبر استدعاءات الأدوات (Tool Calls)
يكمن مفتاح فهم هذه الأرقام في تعريف Anthropic لـ «التفاعل (Exchange)». ففي تطبيقات Agent (الوكيل الذكي) الحديثة، تؤدي استدعاءات الأدوات (Tool Calls) إلى تضخيم طلب مستخدم واحد ليصبح عشرات بل مئات التفاعلات.
عندما يُطلب من نموذج تنفيذ مهمة معقدة (مثل: «تحديث كود الصفحة الرئيسية ليشمل التسعير الجديد»)، يكون سير العمل كالتالي:
- يطلب النموذج البحث عن الملفات ذات الصلة (ينتهي التفاعل الأول، وينقطع الاتصال).
- بعد تنفيذ النظام للبحث، يعيد إلى النموذج السجل الكامل والنتائج (التفاعل الثاني).
- يطلب النموذج قراءة عدة ملفات محددة (التفاعل الثالث).
- يعيد النظام محتوى الملفات، ثم ينتج النموذج في النهاية اقتراحات تعديل الكود (التفاعل الرابع وما يليه).
إذا تم تمكين عمليات بحث متعددة أو تحليل معقد لمستودع كود، فمن السهل جدًا أن يتحول Prompt بسيط من المستخدم إلى مئات «التفاعلات» المتتالية.
تحليل يجمع بين القياسات المعيارية والمنتجات الفعلية
- 150 ألف تفاعل لـ DeepSeek: بالنسبة لتطبيق دردشة ذكاء اصطناعي صغير أو متوسط، فإن توليد 160 ألف طلب في يوم واحد يعد رقمًا أساسيًا جدًا. وإذا استُخدم لتشغيل اختبارات معيارية (Benchmark مثل SnitchBench)، فإن 150 ألف تفاعل بالكاد تكفي لتشغيل الاختبار كاملًا من 2 إلى 3 مرات. جميع المختبرات تحتاج إلى تشغيل API الخاصة بالمنافسين بشكل متكرر لمعايرة معاييرها الداخلية.
- ملايين التفاعلات لدى Moonshot وMiniMax: لنأخذ معيار البرمجة الشهير SWE-bench مثالًا، إذ يتضمن نحو 2,300 مهمة. إذا مُنح النموذج قدرة استدعاء الأدوات أثناء الاختبار، وبافتراض محافظ أن كل مهمة تولّد 50 تفاعلًا عبر استدعاءات الأدوات، فإن تشغيل SWE-bench مرة واحدة سيتطلب 115,000 تفاعل. مجرد تشغيل 30 جولة معيارية يمكنه بسهولة الوصول إلى مستوى 3.4 مليون تفاعل.
- الاستهلاك المشروع على مستوى المنتجات: كانت لدى MiniMax منتجات Agent موجهة للمستخدمين (مثل خدمات مدمجة مع Gemini ونماذج طرف ثالث أخرى). وإذا كانت هذه المنتجات تحتاج إلى بحث معمّق واسترجاع بيانات متعدد، فإن 13 مليون تفاعل رقم يسهل جدًا بلوغه في تطبيقات تجارية طبيعية موجهة للمستخدمين.
بالإضافة إلى ذلك، ذكرت Anthropic أنه عند إصدارها نموذجًا جديدًا، أعادت MiniMax توجيه ما يقرب من نصف الحركة إلى النموذج الجديد خلال 24 ساعة. وهذا في الواقع يتسق تمامًا مع منطق سلوك المستخدمين—فعندما تظهر في واجهة المستخدم زر تبديل إلى أحدث نموذج رائد، فإن غالبية حركة المستخدمين الحقيقيين ستنحاز بسرعة وبشكل طبيعي نحو النموذج الجديد.
3. مفارقة منطق الأمان وذعر المصدر المفتوح
تزعم Anthropic أن النماذج المبنية عبر التقطير غير القانوني ستجرد النموذج الأصلي من حواجز الأمان، مما يخلق مخاطر على الأمن القومي (مثل استخدامها في تطوير أسلحة بيولوجية).
هذا الطرح يتضمن مفارقة منطقية واضحة: إذا كانت آليات الأمان في نموذج Anthropic فعّالة حقًا، فيجب أن ترفض من الأساس توليد معرفة تتعلق بالأسلحة البيولوجية. وإذا كان النموذج الأساسي قد رفض الطلبات الخبيثة، فكيف يمكن للمهاجمين أن «يقطروا» عبر إدخال مطالبات قدرة خطرة لا يخرجها النموذج أصلًا؟
كما يُظهر تقرير Anthropic رفضًا شديدًا لنماذج «المصدر المفتوح/الأوزان المفتوحة (Open-weight)»، ملمحًا إلى أن نماذج التقطير مفتوحة المصدر ستجعل المخاطر خارج السيطرة. والجدير بالذكر أن Anthropic هي حاليًا المختبر الرئيسي الوحيد الذي لم ينشر أي نموذج بأوزان مفتوحة (بينما لدى OpenAI وGoogle والعديد من المختبرات الصينية نماذج مفتوحة المصدر). والمفارقة أنه توجد أدلة تشير إلى أن Anthropic نفسها استخدمت أثناء التدريب أسلوب تدريب اخترعته DeepSeek في ورقة تقنية نُشرت علنًا عام 2024.
4. حقيقة عناقيد الوكلاء (Hydra-clusters)
الظاهرة الموضوعية الوحيدة التي تبدو أكثر موثوقية في التقرير هي: أن الصين فعلًا تشهد قدرًا كبيرًا من السلوكيات التي تستخدم خدمات وكيلة تجارية وبنية «عناقيد الهيدرا (Hydra-cluster)» للوصول بكثافة عالية إلى نموذج Claude.
والسبب الجذري وراء ذلك هو أن Anthropic تفرض حظرًا إقليميًا صارمًا وقيود وصول على منطقة الصين. وللالتفاف على هذه القيود، يقوم بعض الوسطاء من الأطراف الثالثة بتسجيل أعداد ضخمة من الحسابات لتوزيع الطلبات، بل وحتى تجميع البيانات عبر تقديم واجهات وكيلة رخيصة لـ Claude، ثم تدريب نماذج صغيرة خاصة بهم لتعويض تكاليف الوكيل. ورغم أن هذا السلوك موجود موضوعيًا، فإن إرجاعه مباشرة إلى أنه سلوك تنظيمي رسمي من مختبرات ذكاء اصطناعي رائدة مثل DeepSeek لا يفتقر فقط إلى الأدلة القاطعة، بل إن حجم البيانات الضئيل المعلن لا يمكنه دعم هذا الاتهام الكبير.
وقد قدّمت Anthropic مقطعًا من «مُطالبة نموذجية» قيل إنها تُستخدم للتقطير بوصفها دليلًا، ويطلب محتواها من النموذج أن يؤدي دور «محلل بيانات خبير»، وأن «يقدّم رؤى قائمة على بيانات حقيقية واستدلال شفاف». ومن منظور تقني، فهذا مجرد مُطالبة نظام (System Prompt) معيارية ومشروعة لوكيل بحثي، ومن الصعب اعتبارها هجوم تقطير خبيث اعتمادًا على ذلك وحده.
5. خاتمة: حدود ضبابية ومعايير مزدوجة
تكشف هذه الحادثة عن تناقضات عميقة يواجهها قطاع الذكاء الاصطناعي حاليًا. فالنماذج الضخمة لدى شركات مثل Anthropic وOpenAI، إن بيانات تدريبها الأولية نفسها قد جُمعت عبر الزحف واسع النطاق لمحتويات عامة على الإنترنت (بل وحتى محتويات محمية بحقوق النشر). وهذه الممارسات من الشركات الكبرى هي ما جعل بيانات الإنترنت اليوم تميل أكثر فأكثر نحو الإغلاق.
ومع ذلك، عندما تحاول شركات أخرى الاستفادة من بيانات مخرجات هذه النماذج، يتم على الفور وسمها بـ «الاستخراج غير القانوني» و«الهجوم». وفي ظل ضبابية شديدة في تعريف Terms of Service (شروط الخدمة)—مثلًا: هل يُعد الزحف إلى مستودعات GitHub العامة التي تتضمن كودًا مولّدًا بواسطة Claude نوعًا من «التقطير»؟—فإن هذا المنع الأحادي والاتهامات التي تفتقر إلى دعم البيانات، تبدو أقل ارتباطًا بمخاوف أمنية وأكثر شبهًا بسلوك علاقات عامة نابع من قلق المنافسة التجارية.