top of page
AutorenbildAxel von Dielingen

Die Bedeutung von IT-Stabilitäts-Kennzahlen und DORA Metriken

Wir beschäftigen uns seit Mitte der 1990er Jahre mit Kennzahlen zur IT-Stabilität. Seither hat sich viel getan.

Angefangen hatte es aus der Perspektive unserer eigenen End-to-End-Monitoring-Software, da es in mittleren und größeren Unternehmen auch im Zusammenhang mit der Einführung von IT-Servicemanagement nach ITIL wichtig wurde, IT-Stabilität nicht nur in Anekdoten wahrzunehmen, sondern systematisch zu erfassen, zu berichten und zu verbessern.


Die Evolution durch das IT Service Management


Mit der zunehmenden Verbreitung von ITIL in Deutschland ab Mitte der 1990er Jahre haben wir begonnen, unser Kennzahlensystem an die Best Practices des IT-Service-Managements anzupassen. Die Integration von ITIL-Prozessen ermöglichte eine ganzheitlichere Sicht auf die IT-Infrastruktur und förderte eine engere Verzahnung von IT-Betrieb und Geschäftsanforderungen. Unser Kennzahlensystem wurde erweitert, um Aspekte wie Service Level Agreements (SLAs), Incident- und Problem-Management sowie Change-Management abzudecken.


So entwickelten wir ein System der Steuerung von IT-Stabilität, das zwei Kennzahlen in den Vordergrund stellte:


  • Mean Time between Failures (MTBF)

  • Mean Time to Restoration (MTTR)


Mit diesen beiden Kennzahlen lassen sich sowohl Ursachen als auch Verbesserungspotentiale differenziert darstellen, weitaus besser als mit dem gängigen Indikator Verfügbarkeit.


Kulturelle Veränderungen durch DevOps


Seit etwa 2007 führte die DevOps-Kultur allmählich zu einem Paradigmenwechsel in der Softwareentwicklung und dem IT-Betrieb. Für uns war vor allem die enge Verzahnung von Software-Entwicklern und Betriebsverantwortlichen wichtig. Und damit beispielsweise die unmittelbare Rückmeldung von software-bedingten Stabilitätsproblemen an die Verursacher, die regelmäßige Kommunikation zu Stabilitätskennzahlen und daraus abgeleitete technische und prozessuale Verbesserungen.


Mit der Einführung der DORA-Metriken um 2014 rückten dann neue Kennzahlen in den Fokus, die die Leistungsfähigkeit von Entwicklungs- und Bereitstellungsprozessen messen. Für uns bedeutete das eine erneute tiefgreifende Veränderung unseres Kennzahlensystems, um Metriken wie Deployment-Frequenz, Durchlaufzeit für Änderungen und Fehlerquote bei Änderungen einzubeziehen.


Die mittlere Wiederherstellungszeit (MTTR) war ja schon immer Bestandteil unserer Systematik. Aber durch die neuen Impulse aus den DORA-Metriken konnten wir Unternehmen viel besser dabei unterstützen, nicht nur die Stabilität ihrer IT-Systeme, sondern auch die Effizienz ihrer DevOps-Praktiken zu überwachen und zu verbessern.


Die vier zentralen DORA-Metriken im Überblick


  1. Deployment-Frequenz: Wie oft wird neuer Code in die Produktion gebracht? Eine höhere Frequenz zeigt, dass Teams in der Lage sind, kontinuierlich Verbesserungen und neue Funktionen bereitzustellen.

  2. Durchlaufzeit für Änderungen: Die Zeitspanne von einer Code-Änderung bis zu deren Bereitstellung in der Produktion. Kürzere Durchlaufzeiten ermöglichen es Unternehmen, schneller auf Marktveränderungen und Kundenfeedback zu reagieren.

  3. Fehlerquote bei Änderungen: Der Prozentsatz der Deployments, die zu Fehlern in der Produktion führen. Eine niedrige Fehlerquote ist ein Indikator für stabile Prozesse und hohe Softwarequalität.

  4. Mittlere Wiederherstellungszeit (MTTR): Die durchschnittliche Zeit, die benötigt wird, um nach einem Vorfall den Normalbetrieb wiederherzustellen. Eine kurze MTTR minimiert Ausfallzeiten und ihre Auswirkungen auf Kunden und Geschäft.


Warum sind diese Metriken wichtig?


Die DORA-Metriken bieten Unternehmen die Möglichkeit, ihre Entwicklungs- und Bereitstellungsprozesse objektiv zu bewerten. Sie helfen dabei, Stärken und Schwächen zu identifizieren und gezielte Verbesserungen vorzunehmen. Durch die Fokussierung auf diese Metriken können Teams effizienter arbeiten, die Softwarequalität erhöhen und letztlich einen besseren Mehrwert für Kunden schaffen.


Da immer dann, wenn die MTTR ermittelt wird, auch die MTBF automatisch mitberechnet wird, können wir ohne zusätzlichen Aufwand unsere eigene Systematik und die DORA-Metriken in einem Gesamtsystem verwenden. Und damit auch die Berichterstattung an Regulatoren und Governance-Organisationen mit erledigen.


Weiterführende Erkenntnisse durch "Accelerate"


2018 veröffentlichten die Erfinder der DORA-Metriken das Buch "Accelerate: The Science of Lean Software and DevOps". Darin vertiefen sie die Forschung dazu und zeigen anhand empirischer Daten, wie diese Metriken mit organisatorischem Erfolg zusammenhängen. Das Buch dient vielen als Leitfaden, um Best Practices in der Softwareentwicklung zu implementieren.


Fazit


IT-Stabilitäts-Kennzahlen und DORA-Metriken sind heute allgegenwärtig. Wir können sie verwenden, um die Wahrnehmung der IT-Qualität durch die Anwender und die Wirksamkeit der Prozessunterstützung durch IT (und damit den praktischen Nutzen von Digitalisierung jenseits theoretisch optimierter Workflows) darzustellen und den Hebel für Verbesserungen an der richtigen Stelle anzusetzen.


Wir können damit auch den Hyperscalern, den Rechenzentrumsbetreibern und den SaaS Providern genauestens auf die Finger schauen. Und das müssen wir auch - denn um die IT-Stabilität ist es generell nicht gut bestellt. Regelmäßig sind größere Ausfälle in den Medien mit entsprechenden Konsequenzen: Flüge und Bahnreisen fallen aus, Operationen in Krankenhäusern müssen verschoben werden, Energie-Infrastrukturen sind wacklig und kurzfristige technisch bedingte Glitches in den Finanzmärkten erschrecken den Anleger.


Ich hoffe sehr, dass wir beizeiten wieder zu einer Kultur der IT-Stabilität zurückkehren.


Aber vermutlich wird das nur gelingen, wenn man die Verantwortlichen für IT-Stabilitätsprobleme haftbar machen kann. Und das ist in weiter Ferne.

1 Ansicht

Aktuelle Beiträge

Alle ansehen

Comments


bottom of page