Gemini 3.1 Pro 深度技术评测：极高的纸面数据与灾难级的工程可用性

AIYA.DE5.NET · 2026 年2 月 27 日 01:47

Gemini 3.1 Pro 的发布呈现出一种极端的割裂感。各项基准测试表明它拥有目前最庞大的知识储备和最高的“智力”，但在实际的命令行环境和长线代理（Agent）任务中，它却严重缺乏执行基础工具调用的胜任力（Competence）。

以下是关于该模型的详细技术表现汇总。

在跑分和静态知识输出方面，Gemini 3.1 Pro 表现出压倒性优势：

跑分与成本： 在 AI Index 测试中，得分比前代天花板 Opus 4.6 Max 高 4 分。获取该分数的成本极低，仅为 892 美元，不到 Opus 4.6（近 2500 美元）的一半。ARC AGI 2 测试成绩达到 78%。
幻觉控制与准确率： Artificial Analysis 的全知基准测试（奖励承认“不知道”，惩罚错误回答）显示，由于题目难度过高，Sonnet 4.6 和 GPT 5.2 high 等顶尖模型得分为负。前代 Gemini 3 Flash 幻觉率极高，而 3.1 Pro 幻觉率较 3 Pro 几乎减半，并凭借庞大知识库在准确率上大幅领先。
空间推理（Skate Bench）： 在考察滑板冷门知识与 3D/2D 空间物理的复合测试中，它稳定获得 100% 满分（此前最高为 GPT-5 的 98 分，现已退化至 87 分）。
多模态生成： 它是首个能直接生成可用 SVG 图像（如“骑自行车的鹈鹕”，耗时 323.9 秒思考）并制作复杂 SVG 动画的模型。
设计与幽默感： 能够在零样本提示下生成结构良好的前端 UI（如视频审查工具主页）。在 Quiplash AI 互动测试中，生成的带有攻击性的笑话比 Grok 更具幽默感。
垂直框架适配（Convex）： 在无参考指南时处理 Convex 代码，准确率为 89%（低于 Claude 4.6 Sonnet 的 90%）；提供 Convex AI 规则指南后，准确率飙升至近 95%，在数据建模、查询、突变操作等维度均表现完美。

当脱离纯文本问答，进入需要执行力的开发流时，该模型表现出大量基础性缺陷：

工具调用（Tool Calling）严重失控： 智力评分仅 37 分的 Claude 4.5 Haiku 每次都能完美遵循工具调用格式，而 Gemini 3.1 Pro 面对工具时常在“过度调用、完全不用、格式错误”之间随机切换。
底层运行逻辑与死循环： 它极易陷入两三个词汇的无限死机循环，导致官方不得不在 CLI 中硬编码加入“检测到潜在循环”的拦截机制。
官方 CLI 极其不稳定： 官方 CLI 存在大量 Bug，运行中经常无视指定模型，强制在后台切回 Flash 2.5 或 3 Flash preview 等旧模型。
文件操作僵硬与破坏性： 读取文件时疑似被硬编码限制为单次只读 100 行（1-100，101-200 依次读取）。在被赋予文件写入权限后，发生过直接清空/删除整个代码库资产（Nuking assets）的破坏性行为。
执行逻辑偏离： 在执行寻找 Logo 等简单任务时，它会完全偏离指令，输出大段关于 ChatGPT 的冗余分析；还会幻觉出不存在的依赖包，甚至企图用 Python 手写代码修改器。
实际成本攀升： 由于工具调用频繁失败，常需要消耗正常情况 3 倍以上的 Token 来进行重试与纠错，抵消了其单价低廉的优势。

上述执行力缺陷的根源，指向了其训练策略对基准测试的过度优化（Benchmaxing）：

Agent 强化学习（RL）缺失： Meter eval 数据显示，Opus 4.6 和 GPT 5.2 依靠真实用户聊天记录进行 RL 训练，已能以 50% 成功率独立完成人类需耗时 16 小时的超长线任务。Gemini 显然缺乏类似训练，在提供“计划（Plan）”工具的环境中也不会调用，一旦自主执行便会迅速迷失。
为测试得分导致行为极端： 在测试模型道德边界的 SnitchBench（告密者测试）中，若加入“为了人类利益大胆行事”提示词，它会 100% 将医疗事故信息上报政府并泄露给媒体，成为该测试中得分最高的极端告密者。这表明它为了在各类基准测试拿满分进行了严重过度拟合，赢下了脱离实际应用价值的测试，却牺牲了可用性。

总结：
Gemini 3.1 Pro 拥有世界上最庞大的知识库，但由于糟糕的工具执行力，在目前的命令行和开发流中极难驾驭。若需处理代码编写与长线 Agent 任务，Codex 5.3 或 Opus 4.6 仍是更可靠的选择。

话题		回复	浏览量
如何发挥ai的全部算力？通用	2	22	2026 年1 月 31 日
Opus 4.6 与 Codex 5.3：深度技术对比与适用场景分析长期追踪对比	2	44	2026 年2 月 27 日
Gemini 为啥突然 400？因为它不喜欢我的“比喻” AIYA 审核	0	4	2026 年2 月 3 日
大家的工具建议版本用最新的! 同一句提示词，不同 Agent，智商差距现场对比，Codex 能把活干成“悬疑片”(贬义) :后续发现是版本问题通用 cli , 交互 , codex	1	8	2026 年2 月 3 日
熬夜测了一下codex53和opus46 感知不强通用原理限制 , 吹水 , llm	0	13	2026 年2 月 5 日