2026 クラウド Mac における OpenClaw のプロバイダレート制限・再試行・バックオフ:LLM API が 429 と 503 を返してもゲートウェイを落ち着かせる
数十のスキル、cron、人間のチャットが同じ MacLogin mini 上の OpenClaw ゲートウェイへ集中すると、上流 LLM ベンダーは HTTP 429 のスロットルや 503 の過負荷ページを返します。 素朴な「すぐ再試行」ループは、数分でチームの時間あたり枠を焼き尽くしかねません。本稿(2026 年 4 月版)では Retry-After を尊重し、ジッター付き指数バックオフを入れ、同時インフライトを上限し、構造化されたレート制限イベントを記録する方法をまとめます。 HK・JP・KR・SG・US のオペレータが「制御が効いている」と示せるように設計してください。フェイルオーバーやゲートウェイヘルスチェックは、すでに公開されている MacLogin Apple Silicon 向けガイドと組み合わせてください。
横読み:Ollama API フェイルオーバー、ゲートウェイデーモンのトラブルシュート、doctor 診断、本番切替とロールバック。ネットワーク経路は SSH トンネル設定、インストール基準は スクリプト vs npm グローバル。人向けオンボーディングは ヘルプ、容量は 料金、GUI のみのエスカレーションは VNC を参照してください。
共有クラウド Mac ゲートウェイでレート制限が最もきつく当たる理由
単一リースに複数プロダクトラインが乗ると、チャット 1 件あたりの見え方と実際の HTTP 並列度が乖離しやすいです。ここを可観測にしないと、429 が「ランダム障害」として扱われます。
- バースト並列—サブエージェントを起こすスキルは、人間が見る吹き出しが 1 つでも裏で 8 本を超える HTTP を同時に飛ばすことがあります。
- ハートビート—バックグラウンドの死活プローブも、ユーザー可視の完了と同じバックオフ方針を共有すべきです。
- リージョン枠—ベンダーによっては API キー単位と出口リージョン単位の両方で上限があり、東京リースと米国リースでは天井が異なることがあります。
HTTP シグナル:429、503、過負荷 JSON
| シグナル | 典型的な意味 | クライアント最初の手 | ログに残すフィールド | オーナー |
|---|---|---|---|---|
429 + Retry-After | 硬いスロットル窓 | 指定秒+ジッターでスリープ | retry_after_s | ゲートウェイ SRE |
| ヘッダ無し 429 | ソフトなベンダーポリシー | 2.5 秒から指数バックオフ | attempt | 自動化リード |
| 503 + overloaded | 一時的容量 | フェイルオーバーキーまたはモデル別名 | provider_request_id | オンコール |
| 408 / ネットワークリセット | 経路問題 | トンネル+NIC を確認 | rtt_ms | ネットワーク担当 |
ログのオーナー列は責任分界のためであり、実際のインシデントではオンコールが横断的に集める前提で Runbook を書いておくとよいです。
ジッター付きバックオフ表(例)
| 試行 | ベース遅延 | ジッター幅 |
|---|---|---|
| 1 | 2.5 秒 | 0–250 ms |
| 2 | 5 秒 | 0–500 ms |
| 3 | 10 秒 | 0–1 秒 |
| 最終 | ユーザーへエラー提示 | — |
表の数値は出発点です。ベンダー SLA と社内 SLO を見ながら、ピーク時だけ上限を上げる時間帯別設定も検討してください。
レート制限インシデントの構造化ログ
JSON Lines で gateway_region(HK/JP/KR/SG/US)、lease_id、http_status、累積 tokens_deferred を出してください。SSH 監査エビデンスと同じ保持バケットへ流すと、セキュリティレビューでネットワーク制御と AI プロバイダ制御を突き合わせやすくなります。
さらに、429 の直後に成功したリクエストの比率や、キュー滞留時間の p95 をダッシュボード化すると、バックオフだけでなく「モデル別名の切替」判断も速くなります。
ゲートウェイスロットル向け 6 段階ランブック
- 計測:リージョン別の現在 429/503 比率を取る。
- 上限:プロバイダ同時呼び出しをプロセスあたり(まず 4 から)でキャップし、ゆっくり上げる。
- 実装:カスタムバックオフより前に Retry-After パースを入れる。
- ジッター:すべての sleep 経路に付与する。
- アラート:15 分以内に予算枯渇が 3 回続いたら通知する。
- ポストモーテム:ベンダー保守のたびに枠変更を振り返る。
HK と JP の同時実行に関する地域メモ
大中華圏チームは HK リースへ、東京市場時間は JP リースへ負荷が寄りがちです。cron を毎時 0 分に揃えると両リージョンが同じプロバイダパーティションを同時に殴るので、分散させてください。バーストが必要なら、独立したクールダウンカウンタを持つ API キーを 2 本にシャードする手もあります。
キーを増やしても利用規約とデータレジデンシ要件を満たすことが前提です。コンプライアンスと契約管理のチェックリストにリンクを貼っておくと再発防止が楽になります。
FAQ
OpenClaw にバッチ専用キューが要るか? はい。対話チャットは、キューが 12 ターン超の滞留なら長い要約より優先すべきです。
ローカルモデルは? Ollama でも CPU/GPU 飽和時にはバックオフが要ります。上でリンクしたフェイルオーバー記事を参照してください。
再試行を完全オフにしていいか? 決定論的テストだけに限定してください。本番では常に上限付き再試行を残すべきです。
レート制限の嵐を吸収しやすい Mac mini M4
M4 のユニファイドメモリは、ゲートウェイがバックオフ間隔で待つあいだもトークナイザキャッシュを温めやすく、再開時のコールドスタート罰を下げます。MacLogin の 5 メトロ専用 Apple Silicon は、騒がしいテナントを別リースへ隔離しやすく、過剰割当 VM 上の近所問題と戦いにくいです。
リリース週だけ必要なプレミアム API ティアを購入するより、バurst 期間に mini を追加レンタルする方が安いケースも多いです。料金で新しいゲートウェイを指し、バックオフは一度チューニングし、リージョン横断で観測を揃えてください。
次の枠スパイクの前にゲートウェイリースを足す
バックオフに優しいキュー余地を確保し、MacLogin HK・JP・KR・SG・US で OpenClaw を水平拡張。