DB Regio Strasse hat in den letzten Jahren viele organisatorische und IT-technische Veränderungen durchgemacht. Viele Bereiche wurden zunächst zentralisiert und dann wieder dezentralisiert.
Über die Jahre ist so eine sehr heterogene IT – und Prozesslandschaft gewachsen, welche aufgrund ihrer großen Komplexität zu einer immer schlechter werdenden Datenqualität geführt hat.
Die Konsequenzen der schlechten Datenqualität umfassen ein fehlendes Vertrauen der Mitarbeiter in die Daten sowie nur stark eingeschränkte Möglichkeiten für das Management, das Unternehmen zu steuern.
Auf Basis der sehr großen im Konzern vorhandenen Datenmengen wurden darüber hinaus Potenziale zur Nutzung von Machine Learning und KI-basierten Verfahren festgestellt. Da aber jeder Machine-Learning-Algorithmus nur so gut sein kann, wie die Daten, mit denen er trainiert wurde, ist es extrem wichtig, eine sehr gute Datenqualität als Grundlage für Machine-Learning-Algorithmen zur Verfügung zu stellen.
Um der schlechten Datenqualität entgegenzusteuern und um eine gute Ausgangsdatenbasis für Machine Learning zu schaffen, wurde das Projekt Data Excellence ins Leben gerufen.
Projektziel
Ziel des Projekts ist die Steigerung der Datenqualität mit Hilfe von Datenqualitätsregeln („DQRs“) und der Anpassung sowie Automatisierung von Geschäftsprozessen. Weiterhin soll eine verbesserte Steuerungsfähigkeit geschaffen werden. Dabei schaffen DQRs eine sehr feingranulare Transparenz über den Stand der Datenqualität und decken somit Probleme in den Daten auf, so dass die Ursachen für fehlerhafte Datensätze direkt behoben werden können.
Die Anpassung und Automatisierung von Prozessen setzt die Dokumentation und Harmonisierung bestehender Prozesse voraus. Ziel ist hier, Zeit und Kosten zu sparen sowie die Prozessqualität zu erhöhen. Eine bessere Datenqualität sowie bessere Prozesse erhöhen schlussendlich die Steuerungsfähigkeit für das Management.
Lösungsweg
Vor dem Projektstart gab es viele Unklarheiten über die Fehlerursachen und die schlecht laufenden Prozesse. Häufig haben sich die Gesellschaften und Regionen nur um ihre Aufgaben gekümmert und dabei nicht die gesamthafte Sicht des Unternehmens im Blick gehabt. Daher war es sehr wichtig, die Sicht und das Datenverständnis aller Beteiligten zu erweitern und an Lösungen zu arbeiten, die für den gesamtem Konzern Nutzen bringen und nicht nur für einzelne Gesellschaften, bzw. Regionen.
Um die großen Datenmengen des Kunden besser handhabbar machen zu können, wurden diese von der Projektleitung zuerst in unterschiedliche fachliche Domänen unterteilt. Frachtwerk hat bei der Analyse und der Verbesserung der Datenqualität und der Prozesse in den Domänen Fahrzeug-, Leistungs-, Netzpunkt- und Zeitwirtschaftsdaten unterstützt.
Unser Beitrag
- Im Projekt „Data Excellence“ arbeiteten wir in den verschiedensten Bereichen, um das Projekt zu unterstützen. Der Schwerpunkt unserer Arbeit lag dabei in folgenden Gebieten:
- Anforderungsanalyse und Kommunikation: Frachtwerk führte eine umfassende Analyse der Anforderungen in enger Abstimmung mit verschiedenen Stakeholdern durch.
- Datenherkunft und -analyse: Mithilfe von Tools wie AWS Athena SQL, MS SQL und Python analysierte Frachtwerk die Datenquellen und -mengen gründlich.
- Prozessoptimierung: Frachtwerk dokumentierte und harmonisierte Prozesse, um Fehlerquellen zu minimieren und Abläufe zu verbessern.
- Schnittstellenintegration: Durch die Implementierung von Schnittstellen wurde ein reibungsloser Datenaustausch sowie eine reibungslose Kommunikation zwischen Systemen ermöglicht.
- Produktentwicklung: Frachtwerk leitete die Entwicklung kleiner Anwendungen, um Prozesse wie Abrechnungen zu optimieren und zu unterstützen.
- Algorithmus für Geo-Koordinaten: Die Entwicklung eines Algorithmus zur Überprüfung von Geo-Koordinaten auf Basis von Telematikdaten half bei der Identifizierung und Korrektur fehlerhafter Datensätze.
- Datenqualitätsmanagement: In einer übergreifenden Maßnahme führte Frachtwerk Datenqualitätsregeln ein, die eine fortlaufende Überwachung und Optimierung der Datenqualität ermöglichten.
Herausforderungen
Einerseits wurde das Projekt durch den äußeren Umstand der Corona-Pandemie geprägt, welche das Projekt für Frachtwerk zu einem fast ausschließlich digitalen Projekt gemacht hat.
Innerhalb des Projektes selbst bestand die Herausforderung, viele Schwachstellen aus den vier unterschiedlichen Domänen gleichzeitig aufzunehmen, zu priorisieren und Lösungen zu erarbeiten. Erschwert wurde dies durch die Vielzahl der verschiedenen Datenquellen, Arbeitsweisen und unterschiedlichen Formaten je nach Region und Gesellschaft, die jeweils kaum schriftliche Dokumentation zu ihren Prozessen und Systemen hatten. Dies hat die Komplexität der Prozess-, Datenfluss- und Schnittstellenmodellierung stark erhöht.
Zusätzlich kam es innerhalb des Projektteams häufig zu einem Wechsel der Projektleitung. So wurde nach ca. 6 Monaten der Scope des Projektes verändert und Anforderungen mussten angepasst werden. Nach weiteren 3 Monaten kam es zu einem erneuten Wechsel der Projektleitung, welcher ähnliche Änderungen nach sich zog.
Lessons Learned
Organisatorisch:
- Trotz der effizienten Arbeit von remote ist es von entscheidender Bedeutung, sich regelmäßig (bspw. quartalsweise) persönlich zu treffen.
- Die Zeitspanne, die Entscheidungsprozesse benötigen, sollte nicht unterschätzt werden.
- Die Verfügbarkeit der Wissensträger ist entscheidend für ein gutes Projektergebnis.
- Der direkte Weg zum Ziel war aufgrund der vielen organisatorischen Veränderungen nicht immer ersichtlich.
- In durch Externe besetzten Projekten ist es herausfordernd, die Projekterfolge nachhaltig in der Organisation zu verankern.
Inhaltlich:
- Es ist schwierig, Begeisterung für das Thema Datenqualität zu entfachen, obwohl der Nutzen einer guten Datenqualität eigentlich auf der Hand liegt, insbesondere dann, wenn Personen nicht direkt von den Auswirkungen der Datenqualität betroffen sind.
- Die Einführung einer automatisierten und kontinuierlichen Überwachung der Datenqualität ist ein sehr wertvoller, aber zeit- und ressourcenintensiver Prozess, unabhängig von anschließenden Verbesserungsmaßnahmen.
- Die Zeitspannen für die Phasen der Messung, Feststellung und Anpassung bei schlechter Datenqualität variieren je nach Fachbereich erheblich.