Всем совет: используйте самые свежие версии инструментов! Один и тот же промпт, разные Agent — разница в «IQ» наглядно; Codex умудряется превратить работу в «детектив» (в плохом смысле): позже выяснилось, что это из‑за версии



Одна и та же подсказка — а Codex превращает работу в «детектив»

Подсказка всего одна строка:

Проверь использование ресурсов OneDrive на этом компьютере и связанных процессов

Рис. 1–3: Codex (сюжетный режим)

Codex начинает очень серьёзно — собирается запустить PowerShell: Get-Process … *OneDrive* …

Но тут же срывается: batch file arguments are invalid
Ещё смешнее — он не сдаётся и пробует даже echo hiи всё та же ошибка. (рис. 1)

Дальше включается «режим детектива»:

  • подозревает, что перепутались PowerShell / cmd
  • подозревает, что спецсимволы ломают разбор
  • подозревает рабочую директорию/execpolicy
  • короче, начинает снова и снова осматривать место «преступления» (рис. 1)

В итоге финал такой:
«У меня тут не запускается, ты сам скопируй вот эту здоровенную простыню команд в PowerShell, выполни и пришли мне результат.» (рис. 2/рис. 3)

То есть:

Я прошу проверить загрузку ресурсов, а он на месте написал черновик «Руководства по устранению неполадок OneDrive», а работу всё равно делаю я.

Рис. 4: У других (инструментальный режим)

У других всё максимально просто:
прямо выполняют одну команду → выводят PID/CPU/память OneDrive → и заодно коротко резюмируют. (рис. 4)

Никакого детектива, никакого CSI, никакого «я подозреваю вселенную».


Та же проблема: в Linux тоже «упирается в буквальность»

Я попросил его посмотреть логи cliproxyapi на этой машине, а базовая картина мира Codex такая:

Раз ты назвал это имя, то в системе оно должно точно существовать именно под этим именем.

Не нашёл — и начинает хаотично рыться в системных логах, а в какой-то момент вообще собирается git clone мне показать…
(Я: дружище, я хотел посмотреть логи, а не твой сёрфинг-перформанс.)

С другими CLI-инструментами всё нормально:
не найдено точное имя → ищут похожие/варианты → смотрят в Docker → конец.


Моя гипотеза

Проблема Codex не в том, что он не умеет писать команды, а в том, что:

он слишком верит, что «мир чистый, имена точные, окружение учебниковое».

Поэтому он очень похож на человека, который:

  • отлично пишет код
  • но при реальном инцидент-триаже превращает задачу на 1 минуту в часовой «логический флоучарт»

Предложения по дополнению agent-возможностей Codex

  • Поручать Codex писать код :white_check_mark:
  • Поручать Codex быть «дежурным админом на месте» :cross_mark:
  • Если уж использовать его для диагностики, подсказку нужно писать как runbook:
    «не нашёл — делай нечёткое совпадение/ищи варианты имени/проверь systemd/проверь Docker/выведи связанные процессы…»

后来在破案时发现是 Codex 版本的问题:原来旧版 0.88 和新版 0.94 的工具链可能都不一样。
升级后解决。
此帖教训:尽量用最新版本,可能连默认工具链都不一样。