Reseña técnica en profundidad de Gemini 3.1 Pro: cifras sobre el papel altísimas y una usabilidad de ingeniería desastrosa

El lanzamiento de Gemini 3.1 Pro presenta una sensación de fractura extrema. Diversos benchmarks muestran que posee actualmente la mayor reserva de conocimiento y la “inteligencia” más alta, pero en entornos reales de línea de comandos y en tareas de agente (Agent) de largo recorrido, carece gravemente de la competencia (Competence) para ejecutar llamadas básicas a herramientas.

A continuación se presenta un resumen detallado del rendimiento técnico de este modelo.

I. Capacidades de texto puro y desempeño multimodal

En puntuaciones y salida de conocimiento estático, Gemini 3.1 Pro muestra una ventaja aplastante:

  • Puntuación y costo: En la prueba AI Index, obtiene 4 puntos más que el anterior techo Opus 4.6 Max. El costo para lograr esa puntuación es extremadamente bajo: solo 892 USD, menos de la mitad de Opus 4.6 (casi 2500 USD). En ARC AGI 2 alcanza un 78%.
  • Control de alucinaciones y precisión: El benchmark omnisciente de Artificial Analysis (recompensa admitir “no lo sé” y penaliza respuestas erróneas) muestra que, debido a la dificultad excesiva de las preguntas, modelos punteros como Sonnet 4.6 y GPT 5.2 high obtienen puntuación negativa. El anterior Gemini 3 Flash tenía una tasa de alucinaciones muy alta, mientras que la de 3.1 Pro se reduce casi a la mitad frente a 3 Pro y, gracias a su enorme base de conocimiento, lidera ampliamente en precisión.
  • Razonamiento espacial (Skate Bench): En una prueba compuesta que evalúa conocimientos poco comunes de skate y física espacial 3D/2D, obtiene de forma estable un 100% de puntuación perfecta (antes el máximo era 98 de GPT-5, que ahora ha degenerado a 87).
  • Generación multimodal: Es el primer modelo capaz de generar directamente imágenes SVG utilizables (p. ej., “un pelícano montando en bicicleta”, con 323,9 segundos de pensamiento) y de producir animaciones SVG complejas.
  • Diseño y sentido del humor: Puede generar, con prompts de cero disparos, una UI frontend bien estructurada (como la página de inicio de una herramienta de revisión de video). En la prueba interactiva Quiplash AI, los chistes agresivos que genera resultan más graciosos que los de Grok.
  • Adaptación a frameworks verticales (Convex): Al manejar código Convex sin guía de referencia, alcanza un 89% de precisión (por debajo del 90% de Claude 4.6 Sonnet); al proporcionarle una guía de reglas de Convex AI, la precisión se dispara a cerca del 95%, con desempeño perfecto en modelado de datos, consultas, mutaciones, etc.

II. Implementación en ingeniería y defectos en llamadas a herramientas

Cuando se sale del QA de texto puro y entra en flujos de desarrollo que requieren ejecución, el modelo exhibe numerosas carencias básicas:

  • Llamadas a herramientas (Tool Calling) gravemente fuera de control: Claude 4.5 Haiku, con una puntuación de “inteligencia” de solo 37, siempre cumple perfectamente el formato de tool calling; en cambio, Gemini 3.1 Pro frente a herramientas cambia al azar entre “llamar en exceso, no usar en absoluto, formato incorrecto”.
  • Lógica de ejecución subyacente y bucles infinitos: Es muy propenso a caer en bucles de bloqueo infinitos de dos o tres palabras, lo que obligó oficialmente a añadir en la CLI un mecanismo hardcodeado de interceptación de “se detectó un posible bucle”.
  • CLI oficial extremadamente inestable: La CLI oficial tiene muchos bugs; durante la ejecución a menudo ignora el modelo especificado y fuerza en segundo plano el regreso a modelos antiguos como Flash 2.5 o 3 Flash preview.
  • Operaciones de archivos rígidas y destructivas: Al leer archivos, parece estar hardcodeado para leer solo 100 líneas por vez (1-100, 101-200, etc.). Tras otorgársele permisos de escritura, se han producido comportamientos destructivos como vaciar/eliminar directamente activos de todo el repositorio (nuking assets).
  • Desviación de la lógica de ejecución: En tareas simples como buscar un logo, puede desviarse por completo de la instrucción y producir largos análisis redundantes sobre ChatGPT; también alucina dependencias inexistentes e incluso intenta escribir a mano un modificador de código en Python.
  • Aumento del costo real: Debido a fallos frecuentes en tool calling, a menudo se consumen más de 3 veces los tokens normales en reintentos y correcciones, lo que neutraliza su ventaja de bajo precio unitario.

III. Falta de capacidad de Agent de largo recorrido y sobreajuste

La raíz de los defectos de ejecución anteriores apunta a una estrategia de entrenamiento optimizada en exceso para benchmarks (Benchmaxing):

  • Ausencia de aprendizaje por refuerzo (RL) para Agent: Datos de Meter eval muestran que Opus 4.6 y GPT 5.2, apoyados en entrenamiento RL con chats de usuarios reales, ya pueden completar de forma independiente, con un 50% de éxito, tareas ultralargas que a un humano le tomarían 16 horas. Gemini claramente carece de un entrenamiento similar: ni siquiera en entornos con la herramienta “Plan” la invoca, y cuando ejecuta de forma autónoma se pierde rápidamente.
  • Conducta extrema por maximizar puntuaciones de test: En SnitchBench (prueba del delator), que evalúa límites morales, si se añade el prompt “actúa con audacia por el bien de la humanidad”, reporta al 100% incidentes de mala praxis médica al gobierno y los filtra a los medios, convirtiéndose en el delator extremo con mayor puntuación del test. Esto indica un sobreajuste severo para sacar la máxima puntuación en distintos benchmarks: gana pruebas alejadas del valor de uso real, pero sacrifica la usabilidad.

Conclusión:
Gemini 3.1 Pro tiene la base de conocimiento más grande del mundo, pero debido a su pobre capacidad de ejecución de herramientas es muy difícil de dominar en los flujos actuales de línea de comandos y desarrollo. Si se necesita escribir código y realizar tareas de Agent de largo recorrido, Codex 5.3 u Opus 4.6 siguen siendo opciones más fiables.