Limites fournisseur OpenClaw, retries et backoff sur Mac cloud 2026 : garder les passerelles calmes quand les API LLM renvoient 429 et 503
Lorsque des dizaines de skills, tâches cron et sessions de chat humaines convergent vers la même passerelle OpenClaw sur un mini MacLogin, les fournisseurs LLM en amont répondent par des HTTP 429 ou des pages 503 de surcharge—et de naïves boucles « réessayer tout de suite » peuvent consumer le quota horaire d’une équipe entière en quelques minutes. Ce runbook d’avril 2026 décrit comment respecter Retry-After, ajouter un backoff exponentiel avec jitter, plafonner les requêtes concurrentes et journaliser des événements de throttling structurés afin que les opérateurs HK, JP, KR, SG et US puissent prouver l’efficacité du contrôle. Croisez-le avec les guides de basculement et de santé passerelle déjà publiés pour Apple Silicon MacLogin.
Lisez aussi basculement API Ollama, dépannage du démon passerelle, diagnostics doctor et cutover production et rollback. L’ajustement du chemin réseau reste dans configuration du tunnel SSH ; les bases d’installation dans script d’installation contre npm global. Utilisez aide, tarifs et VNC pour l’onboarding humain et les escalades GUI.
Pourquoi les limites de débit frappent surtout les passerelles Mac cloud partagées
- Parallélisme en rafale—les skills qui lancent des sous-agents peuvent dépasser 8 appels HTTP concurrents même lorsqu’un humain ne voit qu’une bulle de chat.
- Trafic de heartbeat—les sondes de santé en arrière-plan doivent partager la même politique de backoff que les complétions visibles.
- Quotas régionaux—certains fournisseurs appliquent des plafonds par clé API et par région de sortie ; un bail à Tokyo peut heurter des plafonds différents d’un bail aux États-Unis.
Signaux HTTP : 503, 429 et corps JSON saturés
| Signal | Sens typique | Première action client | Champ journal à capturer | Propriétaire |
|---|---|---|---|---|
429 + Retry-After | Fenêtre de throttle dure | Sommeil exact en secondes + jitter | retry_after_s | SRE passerelle |
| 429 sans en-tête | Politique fournisseur souple | Backoff exponentiel à partir de 2,5 s | attempt | Responsable automatisation |
| 503 + « overloaded » | Capacité transitoire | Clé de basculement ou alias de modèle | provider_request_id | Astreinte |
| 408 / reset réseau | Problème de chemin | Vérifier tunnel + NIC | rtt_ms | NetEng |
Plan de backoff avec jitter (exemple)
| Tentative | Délai de base | Fenêtre de jitter |
|---|---|---|
| 1 | 2,5 s | 0–250 ms |
| 2 | 5 s | 0–500 ms |
| 3 | 10 s | 0–1 s |
| Finale | Remonter l’erreur à l’utilisateur | — |
Journalisation structurée des incidents de limite
Émettez des lignes JSON contenant gateway_region (HK/JP/KR/SG/US), lease_id, http_status et tokens_deferred cumulé. Envoyez-les vers le même compartiment de rétention que pour les preuves d’audit SSH afin que les revues sécurité corrélationnent contrôles réseau et contrôles fournisseur IA.
Runbook passerelle en six étapes sous throttle
- Mesurer le ratio 429/503 actuel par région.
- Plafonner les appels fournisseur concurrents (commencez à 4 par processus, augmentez lentement).
- Implémenter l’analyse Retry-After avant le backoff personnalisé.
- Ajouter du jitter à chaque chemin de sommeil.
- Alerter lorsque les retries épuisent le budget 3 fois en 15 minutes.
- Post-mortem après chaque fenêtre de maintenance fournisseur qui change les quotas.
Notes régionales sur la concurrence HK contre JP
Les équipes du Grand Chine concentrent souvent la charge sur des baux HK tandis que JP sert les heures de marché tokyoïtes—décalez les cron pour que les deux régions ne frappent pas la même partition fournisseur à la minute pile. Si vous devez saturer, fragmentez sur deux clés API avec compteurs de refroidissement indépendants.
FAQ
OpenClaw a-t-il besoin d’une file séparée pour les jobs batch ? Oui—le chat interactif doit préempter les longs résumés lorsque les files dépassent 12 tours en attente.
Et les modèles locaux ? Les échecs Ollama nécessitent aussi un backoff lorsque CPU/GPU saturés—voir l’article de basculement lié ci-dessus.
Puis-je désactiver totalement les retries ? Uniquement pour des tests déterministes ; la production doit toujours retenter les erreurs transitoires avec plafonds.
Pourquoi le Mac mini M4 aide à absorber les tempêtes de limites
La mémoire unifiée du M4 garde les caches tokenizer chauds pendant que la passerelle attend entre intervalles de backoff, ce qui réduit la pénalité de cold start quand le trafic repart. L’Apple Silicon dédié de MacLogin sur cinq métropoles permet d’isoler les locataires bruyants sur des baux distincts plutôt que de se battre contre des voisins sur des VM surchargées.
Louer des minis supplémentaires pour les périodes de rafale coûte souvent moins que d’acheter des paliers API premium nécessaires seulement pendant les semaines de release—pointez de nouvelles passerelles vers les tarifs, calibrez le backoff une fois et gardez la même observabilité sur toutes les régions.
Ajoutez un bail passerelle avant le prochain pic de quota
Montez OpenClaw horizontalement sur les nœuds HK, JP, KR, SG et US de MacLogin avec de la marge pour des files compatibles backoff.