O backoff de retry do Codex é absurdo: depois de um 403, quanto mais tenta, mais parece um bot

coco · 30 Março , 2026 16:18

Recentemente, ao usar o Codex CLI com um upstream não muito estável, acabei esbarrando num problema bem engraçado — mas também bem prático.

O Codex agora transformou a reconexão em streaming numa lógica de backoff exponencial hardcoded. Nas primeiras tentativas parece normal, mas depois isso infla de um jeito absurdo:

Na 1ª vez, cerca de 0,2 s
Na 5ª vez, cerca de 3,2 s
Na 10ª vez, já passa de 1 minuto
Depois disso, chega a subir para uma tentativa a cada dezenas de minutos, até dezenas de minutos / horas

O problema é que esse design assume por padrão: “quanto mais tempo falhar, mais devagar deve tentar de novo”. Mas na prática muitos upstreams não funcionam assim:

gateway dando pane ocasional
roteamento do backend instável
alguns proxies intermediários compatíveis com OpenAI retornando 403 por pouco tempo / estado de cota ainda não atualizado
na prática, tentar mais algumas vezes e logo volta ao normal

Ou seja, o que realmente se precisa é:

o usuário decidir a frequência de retry
pelo menos permitir retry em intervalo fixo, por exemplo a cada 500 ms
e não ficar refém de um backoff exponencial escrito na pedra

Mais absurdo ainda: o Codex hoje dá ao usuário stream_max_retries, mas não dá controle sobre o intervalo de retry e a estratégia de backoff. Isso acaba levando a:

você pode aumentar as tentativas para 100, mas depois da 10ª, cada espera começa a ficar longa demais, totalmente fora do cenário de “tentar mais algumas vezes e funciona”.

Eu já levei esse problema para o upstream:

github.com/openai/codex

Make stream reconnect delay/backoff configurable in config.toml

已打开 09:12AM - 29 Mar 26 UTC

constansino

enhancement CLI custom-model

Hard-coded exponential backoff for retryable stream reconnects makes some provid…er setups unusable. Today Codex exposes `stream_max_retries`, but not the reconnect delay strategy. The outer reconnect loop uses a fixed exponential backoff starting around 200ms and doubling on each retry, so by the time a session reaches the low teens it is already waiting many minutes between attempts. That is a poor fit for providers / gateways that frequently fail with retryable transient errors but often recover after a few quick retries. One concrete case is OpenAI-compatible upstreams that may briefly return `403 Forbidden` with an "insufficient balance / quota" message and then succeed again shortly afterward once the upstream gateway refreshes state or routes to a healthy backend. In that setup, users can already raise `stream_max_retries`, but they cannot express the retry cadence they actually need. By retry 10+ the built-in exponential backoff dominates and the CLI can end up waiting far longer than the upstream outage itself. Proposed behavior: 1. Keep the current default behavior for existing users. 2. Add provider-scoped TOML settings so users can choose the reconnect delay behavior explicitly. 3. Support at least: - a configurable base delay in milliseconds - a configurable backoff mode (`exponential` or `fixed`) Example desired config: ```toml [model_providers.custom] stream_max_retries = 100 stream_retry_delay_ms = 500 stream_retry_backoff = "fixed" ``` That would allow the common "retry every 500ms" workflow without requiring a local patch. I have a PR ready that implements exactly this shape while preserving the current default behavior.

Tenho a sensação de que, no fundo, o problema não é só um parâmetro mal escolhido, mas um design autoritário demais, que não deixa o usuário escolher.

Se no TOML desse para suportar explicitamente algo como a configuração abaixo, pelo menos aí a escolha voltaria para as mãos do usuário:

[model_providers.custom]
stream_max_retries = 100
stream_retry_delay_ms = 500
stream_retry_backoff = "fixed"

Esse tipo de necessidade é bem comum:
“esse upstream vive dando pane, mas algumas tentativas rápidas em sequência normalmente resolvem — por favor, não puxe automaticamente para uma vez a cada dezenas de minutos.”

Tópico		Respostas	Vistas
大家的工具建议版本用最新的! 同一句提示词，不同 Agent，智商差距现场对比，Codex 能把活干成“悬疑片”(贬义) :后续发现是版本问题通用 cli , 交互 , codex	1	12	3 Fevereiro , 2026
2026年2月底的ai coding观点:你应该知道的一切长期追踪 cli , 交互 , 原理限制 , coding	1	19	27 Fevereiro , 2026
为什么cli工具们不直接用webui? AIMB ui , cli , 交互 , 没想明白	2	19	6 Março , 2026
Opus 4.6 与 Codex 5.3：深度技术对比与适用场景分析长期追踪对比	2	56	27 Fevereiro , 2026
CLIProxyAPI 这次 auth 自动刷新与 watcher 优化修复的完整复盘通用优化 , 编程 , 性能 , unhandled	2	8	27 Abril , 2026

O backoff de retry do Codex é absurdo: depois de um 403, quanto mais tenta, mais parece um bot

Related topics