AI 自動化 2026年4月20日

2026 OpenClaw 供應商限流、重試與退避(雲端 Mac):當 LLM API 回傳 429 與 503 時讓閘道保持冷靜

MacLogin AI 自動化團隊 2026年4月20日 約 15 分鐘閱讀

當大量技能、cron 工作與人類聊天工作階段同時扇入同一台 MacLogin mini 上的 OpenClaw 閘道,上游 LLM 廠商常以 HTTP 429 節流或 503 過載頁回應——而「立刻重試」的朴素迴圈可能在幾分鐘內燒穿整個團隊的小時配額。本篇 2026 年 4 月維運手冊說明如何遵守 Retry-After、使用帶抖動的指數退避、限制在途並行請求,並記錄結構化限流事件,使 HK、JP、KR、SG 與 US 的值班能用資料證明控制策略生效。 它與 MacLogin Apple Silicon 上已發佈的故障轉移與健康檢查文章互補,而不是重複其步驟。

把退避策略視為閘道的一等公民:與認證、工具沙箱、佇列持久化放在同一檢討清單。許多團隊只為「使用者可見 completion」加重試,卻忘了 embedding 批次工作、RAG 重排與內部評測指令稿同樣佔用 TPM——它們會在凌晨把 429 曲線悄悄抬起來。

交叉閱讀 Ollama API 故障轉移閘道守護行程排除doctor 診斷手冊生產切換、健康檢查與回滾。網路路徑調校見 SSH 隧道搭建;安裝基線見 install 指令稿與 npm 全域。人類上手:說明;容量:定價;純 GUI 升級:VNC

為何限流在共用雲端 Mac 閘道上最痛

閘道把「多使用者、多技能、多佇列」折疊成少量出口 IP;供應商側既按金鑰也按區域聚合。結果是:單個失控迴圈即可觸發租戶級懲罰,影響同機其他實驗專案。

  • 突發並行——技能派生子代理時,即使聊天 UI 只顯示一個氣泡,背景也可能同時存在超過 8 個 HTTP 呼叫。
  • 心跳流量——背景健康探針必須與使用者可見 completion 共用同一套退避策略,否則探針本身會變成 DDoS。
  • 區域配額——部分廠商按 API key 與出口區域雙重限額;東京租約與美國租約的天花板可能不同,遷移閘道時要重算預算。

建議在變更視窗把「每區域每金鑰的滑動視窗計數」匯出為 Grafana 或等價看板,而不是只在日誌裡 grep——否則產品團隊會誤以為「模型變差」,實則是並行模型未改但供應商調低了配額。

HTTP 訊號:429、503 與過載 JSON 本文

不同廠商的錯誤體欄位各異;閘道層應做正規化,向上游業務只暴露穩定錯誤碼與可重試標記,避免把 HTML 503 頁面原樣餵回給剖析器。

訊號常見意義用戶端首要動作建議日誌欄位責任人
429 + Retry-After硬節流視窗睡眠指定秒數並加抖動retry_after_s閘道 SRE
無標頭 429軟政策2.5 秒起的指數退避attempt自動化負責人
503 + overloaded瞬時容量切換備用金鑰或模型別名provider_request_id值班
408 / 連線重設路徑問題檢查隧道與網卡rtt_ms網路工程

若你的閘道位於企業 HTTP 代理之後,還要區分「代理回傳的 429」與「模型廠商回傳的 429」——日誌裡應記錄 proxy_layer 布林欄位,避免錯誤地把代理限流當成模型限流去擴充金鑰。

帶抖動的退避表示例

下表為教學用基線,不是唯一正確答案;真實環境要把最大嘗試次數與總 wall-clock 上限寫進設定,並由 on-call 在事故後回顧調整。

嘗試基礎延遲抖動視窗
12.50–250 ms
250–500 ms
3100–1 秒
最終向使用者呈現錯誤
警告:忽略退避的心跳迴圈會形成自傷式 DDoS 模式——應把心跳視為生產流量,納入同一預算與警示。

抖動應使用均勻或全抖動策略之一,並在團隊內固定,避免每人依部落格隨意實作導致排除時無法重現延遲分佈。

限流事件的結構化日誌

每條 JSON 行建議包含 gateway_region(HK/JP/KR/SG/US)、lease_idhttp_status 與累計 tokens_deferred。把它們寫入與 SSH 稽核取證 相同的保留桶,便於安全審查把網路控制與 AI 供應商控制放在一張時間線上。

目標:調校完成後,高峰工作時段內持續 429 占比應低於總 completion 的 5%;若長期高於該值,應優先檢視並行與批次佇列,而不是繼續加密鑰。

額外欄位如 skill_namequeue_depth 有助於定位「哪一個自動化在凌晨打爆閘道」,但注意不要記錄使用者敏感本文。

六步閘道節流手冊

  1. 測量:按區域統計目前 429/503 占比。
  2. 封頂:限制並行供應商呼叫(每行程先從 4 開始,緩慢上調)。
  3. 實作:在自訂退避前先剖析 Retry-After。
  4. 加抖動:每條睡眠路徑都要有抖動。
  5. 警示:當 15 分鐘內連續 3 次耗盡重試預算時觸發。
  6. 復盤:每次供應商維護視窗後回顧配額變化。

第 2 步與第 4 步組合最關鍵:沒有並行上限時,抖動只能把「同時撞牆」變成「稍微錯開撞牆」,仍會在秒級視窗內觸發全局限流。

HK 與 JP 並行策略的區域筆記

大中華區團隊常把重負載集中在香港租約,而 JP 租約服務東京交易時段——請錯開 cron,使兩區不會在整點同時撞擊同一供應商分割區。若必須突發,使用兩把帶獨立冷卻計數的 API key 分片。

若閘道透過 SSH 隧道或 split tunnel 存取不同區域出口,記得在日誌中寫入實際 egress 區域探測結果,而不是僅寫「設定裡填的 region」欄位,否則你會在復盤時誤判 HK 限流實為美國出口觸發。

常見問題

OpenClaw 是否需要為批次另開佇列? 需要——當佇列深度超過 12 個待處理輪次時,互動式聊天應優先於長摘要。

本機模型呢? Ollama 在 CPU/GPU 飽和時同樣需要退避,詳見上文連結的故障轉移文章。

能否在生產完全關閉重試? 僅適用於決定性測試;生產環境應對瞬態錯誤做有上限的重試。

供應商回傳 HTML 而不是 JSON 時怎麼辦? 將其歸類為不可剖析回應,走網路/代理排查路徑,而不是計入模型 token 計費邏輯。

為何 Mac mini M4 有助於吸收限流風暴

M4 的統一記憶體在閘道等待退避間隔時仍能保持分詞器快取熱度,減少恢復流量時的冷啟動懲罰。MacLogin 在五地提供的專用 Apple Silicon 讓你可以把吵雜租戶隔離到獨立租約,而不必在超售 VM 上與鄰居爭搶突發 CPU。

在發佈週租用額外 mini 往往比長期購買高檔 API 套餐更划算——指向 定價 增加閘道,退避策略一次調校即可跨區複用觀測方案。

在下一次配額尖峰前增加閘道租約

在 MacLogin HK、JP、KR、SG 與 US 節點橫向擴展 OpenClaw,為退避友善的佇列預留餘量。