Recomendo usar a versão mais recente das ferramentas! Mesma prompt, Agents diferentes, comparação ao vivo do abismo de “QI”; o Codex consegue transformar o trabalho num “filme de suspense” (pejorativo): depois descobri que era problema de versão



Com a mesma frase de prompt, o Codex consegue transformar o trabalho num “suspense”

O prompt é só uma frase:

Consultar o uso de recursos do OneDrive local e dos processos relacionados

Figuras 1–3: Codex (modo enredo)

O Codex começa bem sério, pronto para rodar PowerShell: Get-Process … *OneDrive* …

Aí capota imediatamente: batch file arguments are invalid
O mais engraçado é que ele não aceita: até echo hi ele testou — e deu o mesmo erro. (Figura 1)

Em seguida entra no “modo detetive”:

  • Suspeita que PowerShell / cmd foi misturado
  • Suspeita que caracteres especiais causaram problema de parsing
  • Suspeita do diretório de trabalho/execpolicy
  • Enfim, começa a reconstituir a cena do crime repetidamente (Figura 1)

No fim, o desfecho é:
“Daqui eu não consigo rodar; você copia esse montão de comandos abaixo para o PowerShell, roda aí e cola para mim.” (Figura 2/Figura 3)

Ou seja:

Eu mandei ele checar uso de recursos; ele me escreveu no ato um rascunho de um “Manual de troubleshooting do OneDrive”, e quem faz o trabalho sou eu.

Figura 4: Outros (modo ferramenta)

Outros são bem diretos:
Executam um comando → imprimem PID/CPU/memória do OneDrive → e ainda fazem um resumo. (Figura 4)

Sem filme de suspense, sem CSI, sem “suspeito do universo”.


O mesmo defeito: no Linux também “gruda no literal”

Pedi para ele checar os logs locais de cliproxyapi, e a visão de mundo padrão do Codex é:

Você falou esse nome, então no sistema deveria existir exatamente esse nome.

Não achou e começou a vasculhar logs do sistema, e em certo momento até quis git clone para me mostrar…
(Eu: mano, eu queria ver logs, não ver você performando um surf na web.)

Com outras ferramentas de CLI é bem normal:
Não acha o mesmo nome → procura nomes parecidos/variantes → olha no Docker → acabou.


Minha suposição

O problema do Codex não é não saber escrever comandos, e sim:

Ele confia demais que “o mundo é limpo, os nomes são exatos e o ambiente é de livro-texto”.

Então ele parece muito aquele tipo de pessoa que:

  • escreve código muito bem
  • mas em troubleshooting “no campo” transforma um trabalho de 1 minuto num “fluxograma de investigação” de 1 hora

Sugestões para completar a capacidade de agent do Codex

  • Deixar o Codex escrever código :white_check_mark:
  • Deixar o Codex ser “ops no campo” :cross_mark:
  • Se for mesmo usar para troubleshooting, o prompt tem que virar um runbook:
    “se não achar, fazer match aproximado/procurar nomes variantes/ver systemd/ver Docker/listar processos relacionados…”

Depois, ao resolver o caso, descobrimos que era um problema da versão do Codex: a versão antiga 0.88 e a nova 0.94 provavelmente têm toolchains diferentes.
Após atualizar, foi resolvido.
Lição deste post: tente usar a versão mais recente possível; o toolchain padrão pode ser diferente.