ההשקה של Gemini 3.1 Pro מציגה תחושת נתק קיצונית. כל מבחני הבנצ’מרק מראים שיש לו כיום מאגר ידע מהגדולים ביותר ו“אינטליגנציה” מהגבוהות ביותר, אך בסביבת CLI (Command Line Interface) אמיתית ובמשימות Agent ארוכות-טווח הוא חסר באופן חמור כשירות (Competence) לבצע קריאות לכלי בסיס (Tool Calling).
להלן סיכום מפורט של הביצועים הטכניים של המודל.
א׳, יכולות טקסט טהור וביצועים רב־מודאליים
בציוני בנצ’מרק ובהפקת ידע סטטית, Gemini 3.1 Pro מציג יתרון מוחץ:
- ציונים ועלות: במבחן AI Index הציון גבוה ב־4 נקודות מתקרת הדור הקודם Opus 4.6 Max. העלות להשגת הציון נמוכה מאוד—רק 892 דולר, פחות ממחצית Opus 4.6 (כמעט 2500 דולר). ציון ARC AGI 2 הגיע ל־78%.
- שליטה בהזיות ודיוק: מבחן ה־Omniscience של Artificial Analysis (מתגמל על הודאה ב“אני לא יודע”, ומעניש תשובות שגויות) מראה שבגלל קושי השאלות, מודלים מובילים כמו Sonnet 4.6 ו־GPT 5.2 high קיבלו ציון שלילי. לדור הקודם Gemini 3 Flash היה שיעור הזיות גבוה במיוחד, בעוד שב־3.1 Pro שיעור ההזיות כמעט נחתך בחצי לעומת 3 Pro, ובזכות מאגר הידע העצום הוא מוביל משמעותית בדיוק.
- הסקה מרחבית (Skate Bench): במבחן משולב שבוחן ידע נישתי על סקייטבורד ופיזיקה מרחבית תלת־ממדית/דו־ממדית, הוא משיג באופן עקבי 100% ציון מלא (בעבר השיא היה 98 של GPT-5, שכעת הידרדר ל־87).
- יצירה רב־מודאלית: זהו המודל הראשון שמסוגל ליצור ישירות תמונות SVG שימושיות (כגון “שקנאי רוכב על אופניים”, עם 323.9 שניות חשיבה) וגם לבנות אנימציות SVG מורכבות.
- עיצוב וחוש הומור: מסוגל ליצור UI פרונטאנד מובנה היטב בהנחיה אפס־דוגמאות (למשל דף בית לכלי סקירת וידאו). במבחן האינטראקטיבי Quiplash AI, הבדיחות התוקפניות שיצר היו מצחיקות יותר משל Grok.
- התאמה למסגרת אנכית (Convex): בעבודה עם קוד Convex ללא מדריך ייחוס, הדיוק הוא 89% (נמוך מ־Claude 4.6 Sonnet עם 90%); לאחר אספקת מדריך כללי Convex AI, הדיוק מזנק לכמעט 95%, עם ביצועים מושלמים במידול נתונים, שאילתות, פעולות mutation ועוד.
ב׳, הטמעה הנדסית וליקויי קריאות לכלים
כאשר עוזבים את שאלות־התשובות בטקסט טהור ונכנסים לזרימת פיתוח שדורשת יכולת ביצוע, המודל מציג שורה של ליקויים בסיסיים:
- Tool Calling יוצא משליטה בצורה חמורה: Claude 4.5 Haiku, עם ציון “אינטליגנציה” של 37 בלבד, מצליח בכל פעם לעמוד בפורמט קריאות הכלי בצורה מושלמת; בעוד Gemini 3.1 Pro מול כלים לעיתים “קורא יותר מדי, לא קורא בכלל, או שוגה בפורמט” ומחליף ביניהם באקראיות.
- לוגיקת ריצה נמוכה ולולאות אינסופיות: הוא נוטה מאוד להיתקע בלולאות קיפאון אינסופיות של שניים־שלושה מילים, עד כדי כך שהגורם הרשמי נאלץ לבצע hardcode ב־CLI של מנגנון חסימה “זוהתה לולאה פוטנציאלית”.
- CLI רשמי לא יציב במיוחד: ב־CLI הרשמי יש באגים רבים, ובמהלך ריצה הוא לעיתים מתעלם מהמודל שנבחר ומכריח מאחורי הקלעים חזרה ל־Flash 2.5 או 3 Flash preview וכדומה—מודלים ישנים.
- פעולות קבצים נוקשות והרסניות: בקריאת קבצים נראה שיש הגבלה קשיחה של קריאה חד־פעמית ל־100 שורות (1–100, 101–200 וכן הלאה). לאחר שניתנה לו הרשאת כתיבה לקבצים, התרחשו פעולות הרסניות של ריקון/מחיקה ישירה של נכסי כל מאגר הקוד (Nuking assets).
- סטייה מלוגיקת ביצוע: במשימות פשוטות כמו חיפוש Logo, הוא עלול לסטות לחלוטין מההוראות ולהוציא ניתוח ארוך ומיותר על ChatGPT; הוא גם עלול “להזות” חבילות תלות שאינן קיימות, ואף לנסות לכתוב ב־Python עורך קוד ידני.
- עלויות בפועל מטפסות: בגלל כישלונות תכופים בקריאות לכלים, לעיתים יש צורך לצרוך מעל פי 3 Token לצורך ניסיונות חוזרים ותיקון שגיאות—מה שמבטל את יתרון המחיר הנמוך ליחידה.
ג׳, היעדר יכולת Agent ארוכת־טווח והתאמת־יתר
שורש ליקויי הביצוע לעיל מצביע על אופטימיזציה־יתר לאמות מידה (Benchmaxing) באסטרטגיית האימון:
- חסר ב־RL (Reinforcement Learning) ל־Agent: נתוני Meter eval מראים ש־Opus 4.6 ו־GPT 5.2 מסתמכים על אימון RL מתוך שיחות משתמשים אמיתיות, וכבר מסוגלים להצליח ב־50% להשלים באופן עצמאי משימות超 ארוכות־טווח שבני אדם צריכים להן 16 שעות. ל־Gemini ברור שחסר אימון דומה; גם בסביבה שמספקת כלי “Plan” הוא לא יודע להשתמש בו, וברגע שהוא פועל עצמאית הוא מיד הולך לאיבוד.
- שאיפה לציון במבחנים מובילה להתנהגות קיצונית: במבחן SnitchBench (מבחן “המלשין”) שבודק גבולות מוסריים, אם מוסיפים פרומפט “לפעול באומץ לטובת האנושות”, הוא ידווח ב־100% על מידע על תאונה רפואית לממשלה וידליף לתקשורת, ויהפוך ל“מלשין” הקיצוני עם הציון הגבוה ביותר במבחן. הדבר מעיד שהוא עבר התאמת־יתר חמורה כדי לקבל ציון מלא בבנצ’מרקים שונים—זכה במבחנים שהתנתקו מערך שימושי בעולם האמיתי, אך הקריב שימושיות.
סיכום:
ל־Gemini 3.1 Pro יש מאגר הידע הגדול ביותר בעולם, אך בשל יכולת ביצוע כלים חלשה, קשה מאוד לשלוט בו כיום ב־CLI ובזרימות פיתוח. אם יש צורך בכתיבת קוד ובמשימות Agent ארוכות־טווח, Codex 5.3 או Opus 4.6 הם עדיין בחירה אמינה יותר.