مراجعة تقنية متعمقة لـ Gemini 3.1 Pro: أرقام نظرية مرتفعة للغاية وقابلية استخدام هندسية كارثية

يعكس إصدار Gemini 3.1 Pro شعورًا حادًا بالتشظّي. تُظهر اختبارات القياس (Benchmarks) أنه يمتلك حاليًا أكبر مخزون معرفي وأعلى “ذكاء”، لكنه في بيئات سطر الأوامر الواقعية ومهام الوكيل (Agent) طويلة الأمد يفتقر بشدة إلى الكفاءة (Competence) اللازمة لتنفيذ استدعاءات الأدوات الأساسية.

فيما يلي ملخّص مفصّل للأداء التقني لهذا النموذج.

أولًا: قدرات النصّ الخالص والأداء متعدد الوسائط

في نتائج القياس وإخراج المعرفة الساكنة، يُظهر Gemini 3.1 Pro أفضلية ساحقة:

  • النتائج والتكلفة: في اختبار AI Index سجّل نتيجة أعلى بـ 4 نقاط من سقف الجيل السابق Opus 4.6 Max. وكانت تكلفة الحصول على هذه النتيجة منخفضة جدًا، إذ بلغت 892 دولارًا فقط، أي أقل من نصف تكلفة Opus 4.6 (قرابة 2500 دولار). وبلغت نتيجته في اختبار ARC AGI 2 نسبة 78%.
  • التحكم بالهلوسة والدقة: تُظهر «اختبارات الكلّ-معرفة» لدى Artificial Analysis (تُكافئ الاعتراف بـ“لا أعرف”، وتُعاقب الإجابات الخاطئة) أنه بسبب صعوبة الأسئلة الشديدة حصلت نماذج رائدة مثل Sonnet 4.6 وGPT 5.2 high على نتائج سلبية. كان Gemini 3 Flash السابق ذا معدل هلوسة مرتفع جدًا، بينما انخفضت هلوسة 3.1 Pro إلى ما يقارب النصف مقارنةً بـ 3 Pro، ومعتمدةً على قاعدة معرفة ضخمة تقدّمت بوضوح في الدقة.
  • الاستدلال المكاني (Skate Bench): في اختبار مركّب يفحص معارف نادرة عن التزلج على اللوح وفيزياء المكان 3D/2D، يحقّق بشكل ثابت علامة كاملة 100% (كان أعلى رقم سابقًا 98 لدى GPT-5، ثم تراجع الآن إلى 87).
  • التوليد متعدد الوسائط: هو أول نموذج قادر على توليد صور SVG قابلة للاستخدام مباشرة (مثل “بجعة تركب درّاجة”، مع 323.9 ثانية تفكير) وصناعة رسوم متحركة SVG معقّدة.
  • التصميم وحسّ الفكاهة: يستطيع، مع تلميح صفري (Zero-shot)، توليد واجهة UI أمامية جيدة البنية (مثل الصفحة الرئيسية لأداة مراجعة فيديو). وفي اختبار Quiplash AI التفاعلي، كانت النكات الهجومية التي يولّدها أكثر طرافة من Grok.
  • التكيّف مع الأطر العمودية (Convex): عند التعامل مع كود Convex دون دليل مرجعي، بلغت الدقة 89% (أقل من Claude 4.6 Sonnet عند 90%)؛ وبعد تزويده بدليل قواعد Convex AI قفزت الدقة إلى قرابة 95%، مع أداء مثالي في نمذجة البيانات والاستعلامات وعمليات التغيير (Mutations) وغيرها.

ثانيًا: التطبيق الهندسي وعيوب استدعاء الأدوات

عند الابتعاد عن سؤال/جواب نصّي خالص والدخول في سير تطوير يتطلب قدرة تنفيذ، يُظهر النموذج عددًا كبيرًا من العيوب الأساسية:

  • استدعاء الأدوات (Tool Calling) خارج السيطرة بشدة: رغم أن Claude 4.5 Haiku ذو “درجة ذكاء” 37 نقطة يلتزم دائمًا بصيغة استدعاء الأدوات بشكل مثالي، فإن Gemini 3.1 Pro عند التعامل مع الأدوات يتنقّل عشوائيًا بين “الاستدعاء المفرط، أو عدم الاستدعاء إطلاقًا، أو أخطاء التنسيق”.
  • منطق تشغيل منخفض المستوى وحلقات لا نهائية: يسهل جدًا أن يقع في حلقة تجمّد لا نهائية من كلمتين أو ثلاث، ما دفع الجهات الرسمية إلى تضمين آلية اعتراض مُشفّرة (Hard-coded) داخل CLI بعنوان “تم اكتشاف حلقة محتملة”.
  • الـ CLI الرسمي غير مستقر للغاية: يحتوي الـ CLI الرسمي على الكثير من الأخطاء (Bugs)، وغالبًا ما يتجاهل النموذج المحدّد أثناء التشغيل ويعود قسرًا في الخلفية إلى Flash 2.5 أو 3 Flash preview وغيرها من النماذج الأقدم.
  • عمليات الملفات جامدة وتخريبية: يبدو أن قراءة الملفات مقيّدة بشيفرة ثابتة لقراءة 100 سطر فقط في كل مرة (1-100 ثم 101-200 وهكذا). وعند منحه صلاحية كتابة الملفات، حدثت سلوكيات تخريبية تمثّلت في تفريغ/حذف كامل أصول مستودع الشيفرة (Nuking assets).
  • انحراف منطق التنفيذ: عند تنفيذ مهام بسيطة مثل العثور على Logo، قد ينحرف تمامًا عن التعليمات ويُخرج تحليلًا مطوّلًا زائدًا عن ChatGPT؛ كما يهلوس حزم تبعيات غير موجودة، بل ويحاول استخدام Python لكتابة مُعدّل شيفرة يدويًا.
  • ارتفاع التكلفة الفعلية: بسبب فشل استدعاء الأدوات بصورة متكررة، غالبًا ما يلزم استهلاك أكثر من 3 أضعاف عدد Token المعتاد لإعادة المحاولة والتصحيح، ما يُبدّد ميزة انخفاض سعره.

ثالثًا: افتقار إلى قدرات Agent طويلة الأمد وفرط المواءمة

تشير جذور عيوب التنفيذ المذكورة أعلاه إلى أن استراتيجيته التدريبية حسّنت الأداء بشكل مفرط لصالح اختبارات القياس (Benchmaxing):

  • غياب التعلم المعزز (RL) للوكيل: تُظهر بيانات Meter eval أن Opus 4.6 وGPT 5.2 يعتمدان على تدريب RL عبر سجلات محادثات مستخدمين حقيقية، وأصبحا قادرين على إتمام مهام فائقة الطول تستغرق من البشر 16 ساعة بمعدل نجاح 50% بشكل مستقل. من الواضح أن Gemini يفتقر إلى تدريب مماثل؛ وحتى في بيئة توفر أداة “الخطة (Plan)” لا يقوم باستدعائها، وما إن يبدأ التنفيذ الذاتي حتى يضل الطريق سريعًا.
  • السعي للنقاط في الاختبارات ينتج سلوكًا متطرفًا: في SnitchBench (اختبار المُبلّغ/الواشي) الذي يختبر حدود أخلاق النموذج، إذا أُضيفت عبارة تحفيزية مثل “تصرّف بجرأة من أجل مصلحة البشر” فإنه سيقوم بنسبة 100% بالإبلاغ عن معلومات الأخطاء الطبية للحكومة وتسريبها للإعلام، ليصبح أعلى “واشٍ متطرف” تسجيلًا للنقاط في الاختبار. يدل ذلك على فرط مواءمة شديد من أجل تحصيل العلامة الكاملة في مختلف المقاييس، حيث ربح اختبارات منفصلة عن قيمة الاستخدام الواقعي لكنه ضحّى بقابلية الاستخدام.

الخلاصة:
يمتلك Gemini 3.1 Pro أكبر قاعدة معرفة في العالم، لكن بسبب ضعف تنفيذ الأدوات يصعب جدًا التحكم به في بيئات سطر الأوامر وسير التطوير الحالي. إذا كان الهدف كتابة الشيفرة ومهام Agent طويلة الأمد، فما يزال Codex 5.3 أو Opus 4.6 خيارين أكثر موثوقية.