Alert-Flut
Die Engineers mussten große Mengen an Warnungen und Telemetrie über mehrere Cluster hinweg sichten, bevor sie die eigentliche Fehlerquelle eingrenzen konnten.
Erfolgsgeschichte · Deutsche Bahn
Hyground war innerhalb der Umgebung der Deutschen Bahn im Einsatz, um die Root-Cause-Analyse in Fahrgastinformationssystemen zu beschleunigen, ohne operative Daten außerhalb der VPC zu übertragen. Achtwöchiger Proof of Concept, DB Reisendeninformation, verteilte Kubernetes-Umgebung.
Die Herausforderung
Die Fahrgastinformationssysteme der Deutschen Bahn laufen in einer verteilten Cloud-Umgebung mit mehreren Kubernetes-Clustern, großen Telemetriemengen und strengen Anforderungen an Zuverlässigkeit und den Umgang mit Daten.
"In stressigen On-Call-Situationen half uns Hyground, viel schneller genau auf das Systemwissen zuzugreifen, das wir brauchten." PoC-Teammitglied, DB RIS
Die Engineers mussten große Mengen an Warnungen und Telemetrie über mehrere Cluster hinweg sichten, bevor sie die eigentliche Fehlerquelle eingrenzen konnten.
Nicht jeder On-Call-Engineer verfügte über das gleiche tiefe Systemverständnis, was bei kritischen Incidents die Eskalations- und Analysezeit verlängerte.
Sensible operative Daten durften zur Analyse nicht an externe Cloud-KI-Anbieter gesendet werden.
Die Lösung
Hyground wurde in einem dedizierten Sandbox-Cluster innerhalb der Umgebung der Deutschen Bahn bereitgestellt und über schreibgeschützte Analysepfade mit der bestehenden Toolchain verbunden.
Bereitstellung per Helm-Chart und Integration in Systeme wie OpenSearch, Prometheus und Kubernetes, ohne das Betriebsmodell im Produktivbetrieb zu verändern.
Hyground nutzte Telemetrie und internen Kontext, um die Root-Cause-Analyse zu beschleunigen und dem On-Call-Engineer das relevante Systemwissen sichtbar zu machen.
Die Engineers erhielten belegbasierte Ergebnisse und behielten die Kontrolle über jede Entscheidung und Aktion im Produktivbetrieb.
Ergebnisse
"Auf Grundlage der positiven Ergebnisse wurde der Rollout auf weitere geschäftskritische Anwendungen und Cluster ausgeweitet." PoC-Lead, DB RIS
Der Proof of Concept reduzierte die Analysezeit deutlich, einschließlich Workflows, in denen die Root-Cause-Bewertung in unter fünf Minuten vorlag.
Unter 5 Min.
Root-Cause-Bewertung
Über die getesteten Workflows hinweg sank die mittlere Zeit bis zur Behebung um bis zu 85 %, wobei die Bereitstellung auf die VPC der Deutschen Bahn beschränkt blieb.
Bis zu 85 %
Geringere MTTR
Systemwissen wurde im gesamten SRE-Team zugänglicher, was die Abhängigkeit von wenigen Fachexperten verringerte.
Die operativen Daten blieben in der VPC der Deutschen Bahn und unterstützten die Anforderungen des Unternehmens an den Umgang mit Daten.
Buchen Sie einen technischen Deep Dive mit Hyground. Wir zeigen Ihnen, wie sich diese Deployment-Form auf Ihre Infrastruktur und Ihre betrieblichen Rahmenbedingungen übertragen lässt.