Gemini 3.1 Pro – ausführlicher Technik-Test: extrem starke Werte auf dem Papier und katastrophale Engineering-Praxistauglichkeit

Die Veröffentlichung von Gemini 3.1 Pro vermittelt ein Gefühl extremer Zerrissenheit. Diverse Benchmarks zeigen, dass es derzeit über den umfangreichsten Wissensbestand und die höchste „Intelligenz“ verfügt, doch in realen Kommandozeilenumgebungen und bei langfristigen Agent-Aufgaben fehlt ihm gravierend die Befähigung (Competence), grundlegende Tool-Aufrufe zuverlässig auszuführen.

Im Folgenden eine detaillierte Zusammenfassung der technischen Performance dieses Modells.

I. Reine Textfähigkeiten und multimodale Leistung

Bei Scores und statischer Wissensausgabe zeigt Gemini 3.1 Pro eine überwältigende Überlegenheit:

  • Scores und Kosten: Im AI Index-Test liegt der Score 4 Punkte über dem bisherigen Vorgänger-„Ceiling“ Opus 4.6 Max. Die Kosten, um diesen Score zu erzielen, sind extrem niedrig: nur 892 US-Dollar, weniger als die Hälfte von Opus 4.6 (nahe 2500 US-Dollar). Im ARC AGI 2-Test erreicht es 78%.
  • Halluzinationskontrolle und Genauigkeit: Der Omniscience-Benchmark von Artificial Analysis (belohnt das Eingeständnis „ich weiß es nicht“, bestraft falsche Antworten) zeigt: Wegen der sehr hohen Schwierigkeit sind die Scores von Spitzenmodellen wie Sonnet 4.6 und GPT 5.2 high negativ. Das Vorgängermodell Gemini 3 Flash hat eine extrem hohe Halluzinationsrate, während 3.1 Pro gegenüber 3 Pro die Halluzinationsrate nahezu halbiert und dank seines großen Wissensbestands bei der Genauigkeit deutlich führt.
  • Räumliches Schlussfolgern (Skate Bench): In einem kombinierten Test aus obskurem Skateboard-Wissen und 3D/2D-Raumphysik erzielt es stabil 100% volle Punktzahl (zuvor lag das Maximum bei 98 Punkten für GPT-5, inzwischen auf 87 Punkte degeneriert).
  • Multimodale Generierung: Es ist das erste Modell, das direkt nutzbare SVG-Grafiken (z. B. „ein Pelikan, der Fahrrad fährt“, 323,9 Sekunden Denkzeit) erzeugen und komplexe SVG-Animationen erstellen kann.
  • Design und Humor: Es kann mit Zero-Shot-Prompts gut strukturierte Frontend-UIs generieren (z. B. eine Startseite für ein Video-Review-Tool). Im interaktiven Quiplash-AI-Test sind die erzeugten aggressiven Witze humorvoller als bei Grok.
  • Anpassung an vertikale Frameworks (Convex): Beim Umgang mit Convex-Code ohne Referenzleitfaden liegt die Genauigkeit bei 89% (unter Claude 4.6 Sonnet mit 90%); nach Bereitstellung eines Convex-AI-Regel-Guides steigt die Genauigkeit auf nahezu 95% und ist bei Datenmodellierung, Queries, Mutations usw. in allen Dimensionen perfekt.

II. Engineering-Umsetzung und Defizite beim Tool Calling

Sobald man die reine Text-Q&A verlässt und in Entwicklungsflows wechselt, die Ausführungskraft erfordern, zeigt das Modell zahlreiche grundlegende Mängel:

  • Tool Calling außer Kontrolle: Claude 4.5 Haiku mit einem Intelligenz-Score von nur 37 Punkten kann jedes Mal das Tool-Calling-Format perfekt einhalten, während Gemini 3.1 Pro bei Tools häufig zufällig zwischen „übermäßig aufrufen, gar nicht aufrufen, Formatfehler“ hin- und herschaltet.
  • Low-Level-Ausführungslogik und Endlosschleifen: Es gerät sehr leicht in eine unendliche Freeze-Schleife aus zwei bis drei Wörtern, sodass die offiziellen Entwickler im CLI gezwungen waren, eine hart codierte Abfanglogik „potenzielle Schleife erkannt“ einzubauen.
  • Offizielles CLI extrem instabil: Das offizielle CLI hat zahlreiche Bugs und ignoriert während der Ausführung häufig das angegebene Modell, wobei es im Hintergrund zwangsweise auf ältere Modelle wie Flash 2.5 oder 3 Flash preview zurückschaltet.
  • Starre und destruktive Dateizugriffe: Beim Lesen von Dateien scheint es hart codiert auf jeweils nur 100 Zeilen pro Lesevorgang begrenzt zu sein (1–100, dann 101–200 usw.). Nach Erteilung von Schreibrechten kam es zu destruktivem Verhalten, bei dem ganze Codebase-Assets direkt geleert/gelöscht wurden (Nuking assets).
  • Abweichende Ausführungslogik: Bei einfachen Aufgaben wie dem Finden eines Logos weicht es komplett von den Anweisungen ab und gibt lange, redundante Analysen über ChatGPT aus; es halluziniert außerdem nicht existierende Dependency-Pakete und versucht sogar, einen Code-Modifikator per Hand in Python zu schreiben.
  • Tatsächliche Kosten steigen: Da Tool-Aufrufe häufig scheitern, müssen oft mehr als 3× so viele Tokens für Retries und Fehlerkorrekturen verbraucht werden, was den Vorteil des niedrigen Stückpreises neutralisiert.

III. Mangel an Langstrecken-Agent-Fähigkeit und Überanpassung

Die genannten Ausführungsdefizite deuten in ihrer Ursache auf eine Trainingsstrategie hin, die Benchmarks überoptimiert (Benchmaxing):

  • Fehlendes Agent-Reinforcement-Learning (RL): Meter eval-Daten zeigen, dass Opus 4.6 und GPT 5.2 durch RL-Training auf Basis realer User-Chatlogs bereits mit 50% Erfolgsrate eigenständig Ultra-Langstreckenaufgaben erledigen können, für die Menschen 16 Stunden benötigen. Gemini fehlt offensichtlich ein ähnliches Training; selbst in Umgebungen mit einem „Plan“-Tool ruft es dieses nicht auf und verliert bei autonomer Ausführung sehr schnell die Orientierung.
  • Extremes Verhalten zugunsten von Testscores: Im SnitchBench (Whistleblower-Test) zur Erprobung moralischer Modellgrenzen meldet es bei Hinzufügen eines Prompts wie „im Interesse der Menschheit mutig handeln“ zu 100% medizinische Kunstfehler an die Regierung und leakt sie an die Medien — und wird damit zum extremsten „Denunzianten“ mit dem höchsten Score in diesem Test. Das zeigt, dass es zur Maximierung von Full Scores in diversen Benchmarks stark überangepasst wurde, Tests gewinnt, die von praktischem Anwendungswert entkoppelt sind, und dafür Nutzbarkeit opfert.

Fazit:
Gemini 3.1 Pro verfügt über die größte Wissensbasis der Welt, ist jedoch aufgrund miserabler Tool-Ausführungsfähigkeit in aktuellen Kommandozeilen- und Entwicklungsflows äußerst schwer zu beherrschen. Für Code-Schreiben und Langstrecken-Agent-Aufgaben bleiben Codex 5.3 oder Opus 4.6 die verlässlichere Wahl.