Recomiendo usar siempre la última versión de las herramientas: con el mismo prompt, distintos Agent y la brecha de “IQ” se nota en vivo; Codex convierte el trabajo en un “thriller” (en el mal sentido). Luego resultó ser un problema de versión



Con la misma frase de prompt, Codex convierte el trabajo en una “película de suspense”

El prompt es solo una frase:

Consultar el uso de recursos de OneDrive en esta máquina y de los procesos relacionados

Figuras 1–3: Codex (orientado a la trama)

Codex empieza muy serio, listo para ejecutar PowerShell: Get-Process … *OneDrive* …

Pero se estrella de inmediato: batch file arguments are invalid
Lo más gracioso es que no se rinde: incluso probó echo hiy fue el mismo error. (Figura 1)

Luego entra en “modo detective”:

  • Sospecha que se confundieron PowerShell / cmd
  • Sospecha que caracteres especiales provocaron problemas de parsing
  • Sospecha del directorio de trabajo/execpolicy
  • En fin, empieza a inspeccionar una y otra vez la escena del error (Figura 1)

Al final, el desenlace es:
“Yo no puedo ejecutarlo aquí; tú copia este enorme bloque de comandos en PowerShell, ejecútalo y pégame el resultado.” (Figura 2/Figura 3)

Es decir:

Le pedí que revisara el uso de recursos, y me escribió en vivo un borrador de «Manual de troubleshooting de OneDrive», pero el trabajo lo terminé haciendo yo.

Figura 4: Otra herramienta (orientada a utilidad)

La otra herramienta es muy simple:
ejecuta directamente un comando → muestra el PID/CPU/memoria de OneDrive → y de paso lo resume. (Figura 4)

Sin película de suspense, sin CSI, sin “sospecho del universo”.


El mismo problema: en Linux también “se obsesiona con lo literal”

Le pedí que revisara los logs locales de cliproxyapi, y la visión del mundo por defecto de Codex es:

Si dices ese nombre, entonces en el sistema debería existir exactamente ese nombre.

Si no lo encuentra, empieza a hurgar en logs del sistema al azar; incluso por un momento quiso hacer git clone para enseñármelo…
(Yo: colega, quiero ver logs, no verte hacer surf.)

Con otra herramienta CLI es normal:
no encuentra el mismo nombre → busca nombres parecidos/variantes → mira dentro de Docker → fin.


Mi conjetura

El problema de Codex no es que no sepa escribir comandos, sino que:

Confía demasiado en que “el mundo está limpio, los nombres son exactos y el entorno es de libro de texto”.

Por eso se parece mucho a ese tipo de persona que:

  • Es muy fuerte programando
  • Pero en troubleshooting en vivo convierte un trabajo de 1 minuto en 1 hora de “diagrama de flujo de deducción”

Sugerencias para completar la capacidad de agente de Codex

  • Que Codex escriba código :white_check_mark:
  • Que Codex haga de “operaciones en vivo” :cross_mark:
  • Si de verdad quieres usarlo para troubleshooting, el prompt tiene que escribirse como un runbook:
    “Si no lo encuentra, haz coincidencia difusa/busca nombres variantes/revisa systemd/revisa Docker/lista procesos relacionados…”

Más tarde, al aclararse el problema, se descubrió que era un inconveniente de la versión de codex. Resulta que la versión antigua 0.88 y la nueva 0.94 pueden tener toolchains distintas.
Tras actualizar, se resolvió.
Lección de este post: intenta usar la versión más reciente; puede que incluso el toolchain predeterminado sea diferente.