Erfolgsgeschichte · Deutsche Bahn

Schnellere Incident-Diagnose in strengen Datengrenzen

Hyground war innerhalb der Umgebung der Deutschen Bahn im Einsatz, um die Root-Cause-Analyse in Fahrgastinformationssystemen zu beschleunigen, ohne operative Daten außerhalb der VPC zu übertragen. Achtwöchiger Proof of Concept, DB Reisendeninformation, verteilte Kubernetes-Umgebung.

Die Herausforderung

Reibungsverluste im verteilten Betrieb

Die Fahrgastinformationssysteme der Deutschen Bahn laufen in einer verteilten Cloud-Umgebung mit mehreren Kubernetes-Clustern, großen Telemetriemengen und strengen Anforderungen an Zuverlässigkeit und den Umgang mit Daten.

"In stressigen On-Call-Situationen half uns Hyground, viel schneller genau auf das Systemwissen zuzugreifen, das wir brauchten." PoC-Teammitglied, DB RIS

Alert-Flut

Die Engineers mussten große Mengen an Warnungen und Telemetrie über mehrere Cluster hinweg sichten, bevor sie die eigentliche Fehlerquelle eingrenzen konnten.

Wissenskonzentration

Nicht jeder On-Call-Engineer verfügte über das gleiche tiefe Systemverständnis, was bei kritischen Incidents die Eskalations- und Analysezeit verlängerte.

Datengrenzen

Sensible operative Daten durften zur Analyse nicht an externe Cloud-KI-Anbieter gesendet werden.

Die Lösung

Autonomie innerhalb des Perimeters

Hyground wurde in einem dedizierten Sandbox-Cluster innerhalb der Umgebung der Deutschen Bahn bereitgestellt und über schreibgeschützte Analysepfade mit der bestehenden Toolchain verbunden.

Kundengesteuertes Deployment

Bereitstellung per Helm-Chart und Integration in Systeme wie OpenSearch, Prometheus und Kubernetes, ohne das Betriebsmodell im Produktivbetrieb zu verändern.

Kontextbezogene Analyse

Hyground nutzte Telemetrie und internen Kontext, um die Root-Cause-Analyse zu beschleunigen und dem On-Call-Engineer das relevante Systemwissen sichtbar zu machen.

Workflow unter menschlicher Kontrolle

Die Engineers erhielten belegbasierte Ergebnisse und behielten die Kontrolle über jede Entscheidung und Aktion im Produktivbetrieb.

Ergebnisse

Souveräne SRE-Befähigung

"Auf Grundlage der positiven Ergebnisse wurde der Rollout auf weitere geschäftskritische Anwendungen und Cluster ausgeweitet." PoC-Lead, DB RIS

Schnellere Analyse

Der Proof of Concept reduzierte die Analysezeit deutlich, einschließlich Workflows, in denen die Root-Cause-Bewertung in unter fünf Minuten vorlag.

Unter 5 Min.

Root-Cause-Bewertung

Bis zu 85 % geringere MTTR

Über die getesteten Workflows hinweg sank die mittlere Zeit bis zur Behebung um bis zu 85 %, wobei die Bereitstellung auf die VPC der Deutschen Bahn beschränkt blieb.

Bis zu 85 %

Geringere MTTR

Breitere Team-Befähigung

Systemwissen wurde im gesamten SRE-Team zugänglicher, was die Abhängigkeit von wenigen Fachexperten verringerte.

Kontrolle gewahrt

Die operativen Daten blieben in der VPC der Deutschen Bahn und unterstützten die Anforderungen des Unternehmens an den Umgang mit Daten.

Evaluieren Sie dasselbe Betriebsmodell in Ihrer Umgebung

Buchen Sie einen technischen Deep Dive mit Hyground. Wir zeigen Ihnen, wie sich diese Deployment-Form auf Ihre Infrastruktur und Ihre betrieblichen Rahmenbedingungen übertragen lässt.