Welches ThrottleInterval soll OpenClaw Gateway auf einem geteilten Mini nutzen?

Starten Sie mit 10 Sekunden für interaktive Labs und 30 Sekunden für Produktions-Gateways, die bei jedem Neustart remote LLMs aufrufen. Niedrigere Werte verstärken API-Stürme; höhere Werte verzögern legitime Recovery nach echten Ausfällen.

Soll SuccessfulExit für den Gateway-Agenten true sein?

Meist false für langlebige Daemons, damit launchd saubere Exits als restart-würdig behandelt. Kombinieren Sie mit Crash-Verhalten in Plist-Kommentaren, damit Operatoren wissen, welche Exit-Codes harmlos sind.

Wie validiere ich Recovery, ohne Port 18789 öffentlich zu exponieren?

Loopback vom Mini per SSH sondieren oder über Ihren Bastion tunneln gemäß MacLogin-Leitfaden; niemals 18789 auf 0.0.0.0 ohne Reverse-Proxy öffnen.

KI-Automatisierung 29. April 2026

2026 OpenClaw-Gateway-Crash-Schleifen unter launchd: Throttling, KeepAlive und Watchdog-Recovery für MacLogin Apple Silicon

MacLogin AI Automation Team 29. April 2026 ~23 Min. Lesezeit

Wenn OpenClaw Gateway beim Plugin-Load oder Modell-Handshake stirbt, startet launchd es brav neu—manchmal schneller, als Ihr LLM-Vendor einen weiteren HTTP 200 liefert. Antwort April 2026 für MacLogin-gehostetes Apple Silicon in Hongkong, Tokio, Seoul, Singapur und den USA: Behandeln Sie die Restart-Taktik als Control Plane, fügen Sie explizite Throttles hinzu, dokumentieren Sie SuccessfulExit-Semantik und belegen Sie Recovery mit geschichteten Sonden statt einem einzelnen curl. Dieser Artikel mappt Crash-Signale auf Euro, liefert eine Intent-Matrix, zerlegt Plist-Struktur, listet neun Rollout-Schritte, modelliert Restart-Stürme gegen API-Kontingente, nennt Observability-Signale, verweist auf Cutover-Leitfäden, beantwortet FAQ und schließt mit Mac-mini-M4-Dichte für Always-on-Agenten.

Lesen Sie Produktions-Cutover-Healthchecks, launchd-Kickstart-Reload und Localhost-Binding-Härtung. Käufe verankern auf Preise, Operator-Doku auf Hilfe.

Teams, die Experiment und Produktion auf einem gemieteten Mini mischen, merken schnell: launchd verstärkt intermittierende Bugs. Trennen Sie Umgebungen per Host oder Region und klonen Sie nur validierte Plist-Diffs von einem dokumentierten Canary.

Crash-Signale, Blast-Radius und warum naiver Respawn schadet

Drei Symptome dominieren April-2026-Incident-Kanäle: (1) Gateway beendet mit Code 0 nach Wartung—launchd startet neu, weil Ihre Plist jeden Exit als Fehler wertet. (2) Ungefangene Plugin-Exceptions beim Import treiben CPU auf 100 % für zig Sekunden und erzeugen Watchdog-Kills, die wie Hardwarefehler wirken. (3) Remote-Model-Endpoints liefern HTTP 429, während launchd sofort neu startet und Throttles zu einem „Denial-of-Wallet“-Angriff gegen die API multipliziert.

Warnung: KeepAlive komplett abzuschalten, um „Lärm zu stoppen“, lässt ein totes Gateway und zufriedenes Monitoring—nur auf Lab-Hosts mit env=sandbox.

Dokumentieren Sie pro Incident, ob der Neustart erwartet (Deploy) oder symptomatisch (Regression) war. Ohne diese Unterscheidung korrelieren Data-Teams fälschlich LLM-Latenz mit Gateway-Verfügbarkeit.

launchd-Knob-Matrix (Absicht vs. Tradeoff vs. Startwert)

Key	Absicht	Tradeoff	Startwert
ThrottleInterval	Restart-Stürme deckeln	Langsamere Recovery nach echten Crashes	30s Prod / 10s Lab
KeepAlive/Crashed	Bei abnormalen Exits neu starten	Kann zugrundeliegenden Bug maskieren	true mit begrenzten Retries
SuccessfulExit	Null-Exits als gesund werten	Erfordert ehrliche Exit-Codes	false bis Gateway-Semantik passt
ProcessType	Interaktiv vs. Background	Beeinflusst Scheduling-Priorität	Background für headless
SoftResourceLimits	FDs deckeln	Skills können verhungern	Auf 4096 anheben bei schweren Watchern

Numerischer Leitplankenwert: Budgetieren Sie mindestens 8 GB RAM für Single-Gateway-Tenants und 16 GB, wenn Cron, Webhooks und interaktive Sessions einen Host teilen—Node 22 plus Modell-Caches füllen kleine Scheiben schnell.

Finance kann Restart-Kosten modellieren: Frequenz × durchschnittlicher Modellaufruf beim Cold Start; diese Kurve beschleunigt die Freigabe konservativerer ThrottleInterval-Werte in Produktion.

Plist-Form: ProgramArguments, WorkingDirectory, EnvironmentVariables

Die meisten beobachteten Ausfälle sind nicht „OpenClaw kaputt“, sondern Pfad-Drift: Plist zeigt noch /usr/local/bin, während Homebrew auf Apple Silicon nach /opt/homebrew/bin wanderte. Kodieren Sie den vollen Pfad zu node und dem Gateway-Entry, exportieren Sie HOME explizit für LaunchAgents ohne Home-Erbe. WorkingDirectory muss zum Workspace passen, in dem ~/.openclaw lebt, damit relative Skill-Pfade zwischen HK- und US-Klonen konsistent auflösen.

Fügen Sie menschlich lesbare XML-Kommentare je sensibler Key hinzu; im 3-Uhr-Ruf lieber zwei Kontextzeilen als Rätselraten zu SuccessfulExit.

Neun-Schritte-Rollout (SSH-first, headless-sicher)

Baseline erfassen mit launchctl print gui/$(id -u)/com.openclaw.gateway (Label anpassen) und JSON aus openclaw doctor archivieren.
Config einfrieren für 20 Minuten: keine npm-Upgrades, keine Plist-Edits vom zweiten Terminal.
ThrottleInterval zuerst anwenden, einmal reloaden und per log show --predicate 'eventMessage CONTAINS "com.openclaw"' --last 15m prüfen, dass Abstände mindestens der Konfiguration entsprechen.
SuccessfulExit togglen erst nach Verifikation, dass das Gateway bei echten Fehlern non-zero liefert—Staging in Singapur nutzen, um Tokio-Produktion nicht zu vergiften.
Fünf Health-curls im Abstand von 200 ms auf 127.0.0.1:18789 nach jedem Restart, analog Model-Allowlist-Fixes.
Einzel-PID für den Listener 120 Sekunden lang verifizieren; bei zwei PIDs LaunchAgent-Duplikate prüfen.
Metriken aktivieren: Restart-Zähler, letzter Exit-Code, Upstream-Latenz-Histogramm in die TSDB—even ein Cron mit JSON alle 60 Sekunden schlägt blindes Paging.
Rollback-Plist in Git mit Ticket-Referenz dokumentieren; Checksumme der vorherigen Plist für One-Command-Restore.
Kommunikation an Chat-Ops: Webhook-Dispatcher sollen Backoff gemäß Rate-Limit-Runbook während des Stabilisierungsfensters respektieren.

Schritte 3–5 bilden eine Dreifachsperre gegen Regressionen: Throttle, Exit-Semantik, dann funktionaler Beweis. Schritt 5 zu überspringen lässt Teams glauben, launchd sei stabil, während App-Clients weiter 502 sehen.

Restart-Stürme vs. Upstream-API-Budget (numerisches Szenario)

Angenommen, das Gateway ruft bei jedem Cold Start ein LLM an und jeder Call kostet 0,004 USD. Bei 6 ungedrosselten Restarts pro Minute verbrennen Sie rund 0,864 USD pro Stunde und Host—klein, bis Sie 22 Contractor-Hosts in Seoul multiplizieren. ThrottleInterval auf 30 Sekunden zu heben deckelt Cold Starts auf 120 pro Stunde und spart etwa 0,52 USD/Stunde/Host—noch vor glücklicherer 429-Dynamik.

Muster	Beobachtete Restarts / 10 min	LLM-HTTP-Mix	Wahrscheinliche Diagnose
White-knuckle-Flapping	> 40	401/403-Spike	Credential-Rotation ohne Plist-Reload
Donnernde Herde	18–24	429-Mehrheit	ThrottleInterval zu niedrig + geteilter API-Key
Sauberer Bounce	1–2	200 stabil	Geplante Wartung oder Config-Reload
Zombie-Listener	0 Restarts, Clients hängen	n/a	Stale Socket; doppelte Agents prüfen

Nutzen Sie diese Muster in Postmortems, um sterile „API ist langsam“-Debatten zu vermeiden, wenn die dominante Metrik eigentlich launchd-Takt ist.

Observability-Signale, die „flatternd grüne“ Gateways erwischen

UNIX-Epoch-Lücke zwischen Gateway-Ready-Zeitstempel und erstem erfolgreichen Modellaufruf > 8 Sekunden deutet auf Plugin-Stalls.
File-Descriptor-Zählung, die über Restarts steigt, signalisiert Lecks, die als Crash-Schleifen tarnen.
launchd-Throttle-Meldungen im Unified Log belegen, dass die Control Plane arbeitet—Fehlen bedeutet oft, dass Keys nie geladen wurden.

Kombinieren Sie diese Signale mit regionaler Netz-Latenz: ein MacLogin-Mini in Singapur zeigt andere Gaps als US-East beim selben LLM-Anbieter.

Cutover-Querverweise (wenn Watchdog-Tuning nicht reicht)

Wenn Healthchecks grün sind, Webhooks aber scheitern, splitten Sie TLS-Vertrauen auf Reverse-Proxies, Dedup-Stores und Gateway-HTTP als unabhängige Oberflächen. Folgen Sie Webhook-Deduplizierung und JSONL-Log-Rotation, damit Forensik dieselbe Wartungsfenster überdauert wie Ihre Plist-Anpassungen.

FAQ

Patcht MacLogin meine Plist? Nein—Kunden besitzen LaunchAgent-Inhalt; wir liefern Mac und Netzpfad aus Hilfe.

Gateway als root? Vermeiden; least-privilege LaunchAgents reduzieren Blast-Radius, wenn Skills ausrasten.

Wo sicher testen? Isolierten Mini über Preise hochfahren, bevor Produktions-Tokio berührt wird.

Warum Mac mini M4 nach Watchdog-Tuning weiter zu Always-on OpenClaw passt

M4-Effizienz verhindert, dass Restart-Stürme Stromschienen sättigen wie alte Intel-Minis, wenn Node, ffmpeg-Helfer und Xcode-Indexing kollidieren. Unified Memory erlaubt Modell-Caches und Log-Puffer ohne PCIe-SSD-Thrash, sodass 30-Sekunden-Throttle-Fenster von Netz-Latenz—nicht Disk-Stalls—dominiert werden. Mieten pro Metro erlaubt US-Canary mit aggressiven Throttles, während APAC-Produktion konservativ bleibt und nur bewährte Plist-Diffs nach 72 Stunden flacher Metriken klont.

Wenn Gateways vom Lab zu umsatzkritisch werden, Kapazität über MacLogin-Regionen statt sieben Agenten auf einer thermischen Hülle zu stapeln—Apple-Silicon-pro-Watt schlägt weiterhin Mac-Pro-Türme in Colocation für 24/7-Automatisierung.

Geben Sie OpenClaw Raum, auf dediziertem Apple Silicon sicher zu scheitern

Deployen Sie Gateways in HK, JP, KR, SG oder US mit SSH-first-Workflows und dokumentiertem Rollback.

Pläne vergleichen OpenClaw-Guides durchsuchen