AI 自動化 2026年4月20日

2026 クラウド Mac における OpenClaw のプロバイダレート制限・再試行・バックオフ:LLM API が 429 と 503 を返してもゲートウェイを落ち着かせる

MacLogin AI 自動化チーム 2026年4月20日 読了目安 約15分

数十のスキル、cron、人間のチャットが同じ MacLogin mini 上の OpenClaw ゲートウェイへ集中すると、上流 LLM ベンダーは HTTP 429 のスロットルや 503 の過負荷ページを返します。 素朴な「すぐ再試行」ループは、数分でチームの時間あたり枠を焼き尽くしかねません。本稿(2026 年 4 月版)では Retry-After を尊重し、ジッター付き指数バックオフを入れ、同時インフライトを上限し、構造化されたレート制限イベントを記録する方法をまとめます。 HK・JP・KR・SG・US のオペレータが「制御が効いている」と示せるように設計してください。フェイルオーバーやゲートウェイヘルスチェックは、すでに公開されている MacLogin Apple Silicon 向けガイドと組み合わせてください。

横読み:Ollama API フェイルオーバーゲートウェイデーモンのトラブルシュートdoctor 診断本番切替とロールバック。ネットワーク経路は SSH トンネル設定、インストール基準は スクリプト vs npm グローバル。人向けオンボーディングは ヘルプ、容量は 料金、GUI のみのエスカレーションは VNC を参照してください。

共有クラウド Mac ゲートウェイでレート制限が最もきつく当たる理由

単一リースに複数プロダクトラインが乗ると、チャット 1 件あたりの見え方と実際の HTTP 並列度が乖離しやすいです。ここを可観測にしないと、429 が「ランダム障害」として扱われます。

  • バースト並列—サブエージェントを起こすスキルは、人間が見る吹き出しが 1 つでも裏で 8 本を超える HTTP を同時に飛ばすことがあります。
  • ハートビート—バックグラウンドの死活プローブも、ユーザー可視の完了と同じバックオフ方針を共有すべきです。
  • リージョン枠—ベンダーによっては API キー単位と出口リージョン単位の両方で上限があり、東京リースと米国リースでは天井が異なることがあります。

HTTP シグナル:429、503、過負荷 JSON

シグナル典型的な意味クライアント最初の手ログに残すフィールドオーナー
429 + Retry-After硬いスロットル窓指定秒+ジッターでスリープretry_after_sゲートウェイ SRE
ヘッダ無し 429ソフトなベンダーポリシー2.5 秒から指数バックオフattempt自動化リード
503 + overloaded一時的容量フェイルオーバーキーまたはモデル別名provider_request_idオンコール
408 / ネットワークリセット経路問題トンネル+NIC を確認rtt_msネットワーク担当

ログのオーナー列は責任分界のためであり、実際のインシデントではオンコールが横断的に集める前提で Runbook を書いておくとよいです。

ジッター付きバックオフ表(例)

試行ベース遅延ジッター幅
12.50–250 ms
250–500 ms
3100–1 秒
最終ユーザーへエラー提示
警告:バックオフを無視するハートビートは自己招致的なパターンになり得ます。本番トラフィックと同じ予算に載せてください。

表の数値は出発点です。ベンダー SLA と社内 SLO を見ながら、ピーク時だけ上限を上げる時間帯別設定も検討してください。

レート制限インシデントの構造化ログ

JSON Lines で gateway_region(HK/JP/KR/SG/US)、lease_idhttp_status、累積 tokens_deferred を出してください。SSH 監査エビデンスと同じ保持バケットへ流すと、セキュリティレビューでネットワーク制御と AI プロバイダ制御を突き合わせやすくなります。

目標:調整完了後のピーク帯、完了全体に対する持続的 429 を 5% 未満に抑える。

さらに、429 の直後に成功したリクエストの比率や、キュー滞留時間の p95 をダッシュボード化すると、バックオフだけでなく「モデル別名の切替」判断も速くなります。

ゲートウェイスロットル向け 6 段階ランブック

  1. 計測:リージョン別の現在 429/503 比率を取る。
  2. 上限:プロバイダ同時呼び出しをプロセスあたり(まず 4 から)でキャップし、ゆっくり上げる。
  3. 実装:カスタムバックオフより前に Retry-After パースを入れる。
  4. ジッター:すべての sleep 経路に付与する。
  5. アラート15 分以内に予算枯渇が 3 回続いたら通知する。
  6. ポストモーテム:ベンダー保守のたびに枠変更を振り返る。

HK と JP の同時実行に関する地域メモ

大中華圏チームは HK リースへ、東京市場時間は JP リースへ負荷が寄りがちです。cron を毎時 0 分に揃えると両リージョンが同じプロバイダパーティションを同時に殴るので、分散させてください。バーストが必要なら、独立したクールダウンカウンタを持つ API キーを 2 本にシャードする手もあります。

キーを増やしても利用規約とデータレジデンシ要件を満たすことが前提です。コンプライアンスと契約管理のチェックリストにリンクを貼っておくと再発防止が楽になります。

FAQ

OpenClaw にバッチ専用キューが要るか? はい。対話チャットは、キューが 12 ターン超の滞留なら長い要約より優先すべきです。

ローカルモデルは? Ollama でも CPU/GPU 飽和時にはバックオフが要ります。上でリンクしたフェイルオーバー記事を参照してください。

再試行を完全オフにしていいか? 決定論的テストだけに限定してください。本番では常に上限付き再試行を残すべきです。

レート制限の嵐を吸収しやすい Mac mini M4

M4 のユニファイドメモリは、ゲートウェイがバックオフ間隔で待つあいだもトークナイザキャッシュを温めやすく、再開時のコールドスタート罰を下げます。MacLogin の 5 メトロ専用 Apple Silicon は、騒がしいテナントを別リースへ隔離しやすく、過剰割当 VM 上の近所問題と戦いにくいです。

リリース週だけ必要なプレミアム API ティアを購入するより、バurst 期間に mini を追加レンタルする方が安いケースも多いです。料金で新しいゲートウェイを指し、バックオフは一度チューニングし、リージョン横断で観測を揃えてください。

次の枠スパイクの前にゲートウェイリースを足す

バックオフに優しいキュー余地を確保し、MacLogin HK・JP・KR・SG・US で OpenClaw を水平拡張。