Quelle valeur de ThrottleInterval pour OpenClaw Gateway sur un mini partagé ?

Commencez par 10 secondes pour les labos interactifs et 30 secondes pour les passerelles de production qui appellent des LLM distants à chaque redémarrage. Des valeurs plus basses amplifient les tempêtes d’API ; des valeurs plus hautes retardent une récupération légitime après une panne réelle.

SuccessfulExit doit-il être vrai pour l’agent passerelle ?

Généralement faux pour les démons longue durée afin que launchd traite les sorties propres comme nécessitant un redémarrage. Associez un commentaire plist documentant les codes de sortie bénins.

Comment valider la récupération sans exposer publiquement le port 18789 ?

Sondez loopback depuis le mini via SSH, ou tunnelisez via votre bastion selon les recommandations MacLogin ; n’ouvrez jamais 18789 sur 0.0.0.0 sans proxy inverse.

Automatisation IA 29 avril 2026

2026 Boucles de crash d’OpenClaw Gateway sous launchd : limitation, KeepAlive et récupération watchdog sur Apple Silicon MacLogin

MacLogin AI Automation Team 29 avril 2026 ~23 min de lecture

Lorsqu’OpenClaw Gateway meurt pendant le chargement d’un plugin ou la négociation de modèle, launchd le relance fidèlement—parfois plus vite que votre fournisseur LLM ne rend un nouveau HTTP 200. La réponse d’avril 2026 pour l’Apple Silicon hébergé par MacLogin à Hong Kong, Tokyo, Séoul, Singapour et aux États-Unis : traiter la cadence de redémarrage comme un plan de contrôle, ajouter des limitations explicites, documenter la sémantique SuccessfulExit et prouver la récupération avec des sondes superposées plutôt qu’un simple curl. Cet article relie les signaux de crash à des euros, fournit une matrice d’intentions, dissèque la structure du plist, liste neuf étapes de déploiement, modélise les tempêtes de redémarrage contre les quotas d’API, énumère des signaux d’observabilité, pointe vers des guides de bascule existants, répond à une FAQ et conclut sur la densité Mac mini M4 pour les agents toujours actifs.

Lisez aussi contrôles de santé de bascule production, rechargement launchd kickstart et durcissement liaison localhost. Ancrez les achats sur tarifs et la documentation opérateur sur aide.

Les équipes qui mélangent expérimentation et production sur un même mini loué découvrent vite que launchd amplifie les bugs intermittents : une exception non gérée devient une série de redémarrages qui masque la cause racine. Séparez les environnements par hôte ou par région, puis clonez uniquement les plists validés depuis un canari documenté.

Signaux de crash, rayon d’explosion et pourquoi un simple respawn nuit

Trois symptômes dominent les canaux d’incident d’avril 2026 : (1) la passerelle sort avec le code 0 après une tâche de maintenance—launchd redémarre quand même parce que votre plist traite toute sortie comme échec. (2) des exceptions de plugin non interceptées pendant l’import font monter le CPU à 100 % pendant des dizaines de secondes, provoquant des kills watchdog ressemblant à des défauts matériels. (3) les points de terminaison distants renvoient HTTP 429 tandis que launchd relance immédiatement, multipliant les limitations en une attaque « déni de portefeuille » contre l’API.

Avertissement : désactiver entièrement KeepAlive pour « couper le bruit » laisse une passerelle morte et une supervision silencieusement satisfaite—réservez cela aux hôtes de labo balisés env=sandbox.

Documentez pour chaque incident si le redémarrage était attendu (déploiement) ou symptômatique (régression). Sans cette distinction, les équipes data finissent par corréler de faux positifs entre latence LLM et disponibilité passerelle.

Matrice des paramètres launchd (intention, compromis, valeur de départ)

Clé	Intention	Compromis	Valeur de départ
ThrottleInterval	Plafonner les tempêtes de redémarrage	Récupération plus lente après crash réels	30 s prod / 10 s labo
KeepAlive/Crashed	Redémarrer sur sortie anormale	Peut masquer un bug sous-jacent	true avec tentatives bornées
SuccessfulExit	Traiter les sorties zéro comme saines	Exige des codes de sortie honnêtes	false tant que la passerelle ne respecte pas la sémantique
ProcessType	Interactif vs arrière-plan	Influence la priorité d’ordonnancement	Background pour headless
SoftResourceLimits	Plafonner les descripteurs de fichiers	Les skills peuvent manquer de ressources	Augmenter à 4096 avec des watchers lourds

Garde-fou numérique : prévoyez au moins 8 Go de RAM pour les locataires une passerelle et 16 Go lorsque cron, webhooks et sessions interactives partagent un hôte—Node 22 plus caches modèle épuisent vite les petites tranches.

Les équipes finance peuvent modéliser le coût des redémarrages en multipliant la fréquence par le prix moyen d’un appel modèle au démarrage ; présenter ce graphique accélère l’approbation d’un ThrottleInterval plus conservateur en production.

Forme du plist : ProgramArguments, WorkingDirectory, EnvironmentVariables

La plupart des échecs observés ne sont pas « OpenClaw cassé » mais une dérive de chemins : un plist pointe encore vers /usr/local/bin alors que Homebrew sur Apple Silicon a migré vers /opt/homebrew/bin. Encodez le chemin complet vers node et l’entrée passerelle, exportez HOME explicitement pour les LaunchAgents qui héritent sinon d’un dossier personnel vide. WorkingDirectory doit correspondre à l’espace où vit ~/.openclaw afin que les chemins relatifs des skills se résolvent de façon cohérente entre clones HK et US.

Ajoutez des commentaires XML lisibles par humain sur chaque clé sensible ; lors d’astreinte à 3 h du matin, un opérateur préfère lire deux lignes de contexte que de deviner pourquoi SuccessfulExit a été basculé la semaine précédente.

Déploiement en neuf étapes (SSH d’abord, compatible headless)

Capturer la baseline avec launchctl print gui/$(id -u)/com.openclaw.gateway (adaptez l’étiquette) et archiver le JSON de openclaw doctor.
Figer la configuration pendant 20 minutes : pas de mises à jour npm, pas d’édition plist depuis un second terminal.
Appliquer ThrottleInterval d’abord, recharger une fois, et confirmer que l’espacement des redémarrages s’élargit d’au moins les secondes configurées via log show --predicate 'eventMessage CONTAINS "com.openclaw"' --last 15m.
Basculer SuccessfulExit seulement après vérification que la passerelle renvoie non-zéro sur de vrais échecs—utilisez un hôte de staging à Singapour pour ne pas empoisonner le trafic production de Tokyo.
Exécuter cinq curls de santé espacés de 200 ms sur 127.0.0.1:18789 après chaque redémarrage, en miroir du guide liste blanche de modèles.
Valider qu’un seul PID détient l’écoute pendant 120 secondes ; si deux PID apparaissent, inspectez les doublons LaunchAgent zombies.
Activer des métriques : exportez compteur de redémarrages, dernier code de sortie et histogramme de latence amont vers votre TSDB—même un cron lisant du JSON toutes les 60 secondes bat la pagination aveugle.
Documenter le rollback du plist dans git avec référence de ticket ; incluez le checksum du plist précédent pour une restauration en une commande.
Communiquer aux opérations chat que les expéditeurs de webhooks doivent respecter le backoff selon le runbook de limitation pendant la fenêtre de stabilisation.

Les étapes 3 à 5 forment une « barrière à trois corps » contre les régressions : limitation, sémantique de sortie, puis preuve fonctionnelle. Sauter l’étape 5 laisse des équipes croire que launchd est stable alors que les clients applicatifs reçoivent encore des 502.

Tempêtes de redémarrage contre budgets d’API amont (scénario chiffré)

Supposons qu’une passerelle appelle un LLM à chaque démarrage à froid et que chaque appel coûte 0,004 USD. À 6 redémarrages non limités par minute, vous brûlez environ 0,864 USD par heure et par hôte—peu jusqu’à multiplier 22 hôtes prestataires à Séoul. Porter ThrottleInterval à 30 secondes plafonne les démarrages à froid à 120 par heure, économisant environ 0,52 USD/heure/hôte avant même d’améliorer le comportement face aux 429.

Profil	Redémarrages observés / 10 min	Mix HTTP LLM	Diagnostic probable
Flapping nerveux	> 40	pics 401/403	Rotation d’identifiants sans rechargement plist
Ruée	18–24	429 majoritaire	ThrottleInterval trop bas + clé API partagée
Rebond propre	1–2	200 stable	Maintenance planifiée ou rechargement de configuration
Écoute zombie	0 redémarrage mais clients bloqués	n/a	Socket obsolète ; dupliquer les agents

Utilisez ces profils dans les revues post-mortem pour éviter les débats stériles sur « l’API est lente » lorsque la métrique dominante est en réalité la cadence launchd.

Signaux d’observabilité qui attrapent les passerelles « vertes mais instables »

Écart d’epoch UNIX entre l’horodatage prêt de la passerelle et le premier appel modèle réussi > 8 secondes : indique des blocages de plugin.
Nombre de descripteurs de fichiers qui monte à travers les redémarrages : fuite de descripteurs déguisée en boucle de crash.
Messages de limitation launchd dans le journal unifié : preuve que le plan de contrôle travaille—leur absence signifie souvent que le plist n’a jamais chargé les clés.

Combinez ces signaux avec la latence réseau régionale : un mini MacLogin à Singapour peut afficher des gaps différents d’un hôte US-East pour le même fournisseur LLM.

Liens de bascule (quand le réglage watchdog ne suffit pas)

Si les contrôles de santé passent mais les webhooks échouent, scindez le problème : confiance TLS sur proxys inverses, magasins de déduplication et HTTP passerelle sont des surfaces indépendantes. Suivez déduplication des webhooks et rotation JSONL des journaux pour que les données forensiques survivent à la même fenêtre de maintenance où vous ajustez les plists.

FAQ

MacLogin corrige-t-il mon plist ? Non : les clients possèdent le contenu LaunchAgent ; nous fournissons le Mac et le chemin réseau documenté dans aide.

Faut-il exécuter la passerelle en root ? Évitez ; les LaunchAgents moindre privilège réduisent le rayon d’explosion lorsque des skills dérapent.

Où tester en sécurité ? Provisioning d’un mini isolé via tarifs avant de toucher la production Tokyo.

Pourquoi le Mac mini M4 convient encore à OpenClaw toujours actif après réglage watchdog

L’efficacité M4 empêche les tempêtes de redémarrage de saturer les rails d’alimentation comme les anciens mini Intel lorsque Node, des helpers ffmpeg et l’indexation Xcode entrent en collision. La mémoire unifiée permet aux caches modèle et tampons journaux de coexister sans saturation SSD PCIe, si bien que vos fenêtres de limitation de 30 secondes restent dominées par la latence réseau—pas par les blocages disque. Louer par métro permet d’exécuter un canari US avec limitations agressives pendant que la production APAC reste prudente, en ne clonant que les diffs plist éprouvés une fois les métriques plates pendant 72 heures.

Lorsque les passerelles passent du labo au critique pour le chiffre d’affaires, ajoutez de la capacité via les régions MacLogin plutôt qu’en empilant sept agents sur une même enveloppe thermique—l’économie par watt d’Apple Silicon bat encore le transport de tours Mac Pro en colocation pour une automatisation 24/7.

Donnez à OpenClaw la marge d’échouer proprement sur de l’Apple Silicon dédié

Déployez des passerelles à HK, JP, KR, SG ou US avec des flux SSH-first et un rollback documenté.

Comparer les offres Parcourir les guides OpenClaw