Vorfallmanagement: Prozesse, Best Practices und Tools (2024)

Management von Serviceanfragen

Überblick

Best Practices für den Aufbau eines Servicedesk

IT-Metriken und -Berichte

SLAs: Was, warum und wie?

Warum die Lösung beim ersten Anruf so wichtig ist

Helpdesk

Unterschiede zwischen den Begriffen "Servicedesk", "Helpdesk" und "ITSM"

IT-Support nach dem DevOps-Ansatz

Interaktive Ticketlösungen

Jira Service Management individuell anpassen

Übergang vom E-Mail-Support

Servicekatalog

Was ist ein virtueller Agent?

Ein Überblick über IT-Services und ihre Bedeutung

IT-Asset-Management

Überblick

Configuration Management Databases (CMDs)

Konfigurationsmanagement und Asset-Management

Best Practices für das IT- und Software-Asset-Management

Asset-Verfolgung

Hardware-Asset-Management

Vorfallmanagement

Überblick

IT Service Continuity Management (ITSCM)

Informationen zu Vorfällen

Vorlagen

Workshop

Incident Response

Best Practices

Einsatzleiter

Luftfahrt

Rollen und Zuständigkeiten

Lebenszyklus

Playbook

Bereitschaftsdienst

Bereitschaftspläne

Bezahlung im Bereitschaftsdienst

Alarm-Fatigue

Verbesserung des Bereitschaftsdienstes

IT-Warnmeldungen

Eskalationsrichtlinien ansehen

Vorlage

Eskalationspfad-Vorlage

KPIs

Gängige Metriken

Schweregrade

Kosten von Ausfällen

SLA, SLO und SLI

Fehlerbudget

Zuverlässigkeit und Verfügbarkeit

MTTF (Mean Time to Failure)

DevOps

SRE

You build it, you run it

Problemmanagement und Vorfallmanagement

ChatOps

IT-Service-Management (ITSM)

Management von größeren Vorfällen

Management von IT-Vorfällen

Modernes Vorfallmanagement für IT-Ops

So entwickelst du einen IT-Disaster-Recovery-Plan

Beispiele für Disaster-Recovery-Pläne

Best Practices für das Bug-Tracking

Post-Mortem-Analyse

Vorlage

Ohne Schuldzuweisungen

Berichte

Meeting

Zeitleisten

5Warum-Fragen

Öffentlich vs. privat

Tutorials

Informationen zu Vorfällen

Bereitschaftsplan

Automatisierung von Kundenbenachrichtigungen

Handbuch

Incident Response

Post-Mortem-Analysen

Vorlagengenerator

Glossar

Handbuch herunterladen

Der Stand des Vorfallmanagements2020

Der Stand des Vorfallmanagements2021

Problemmanagement

Überblick

Vorlage

Rollen und Zuständigkeiten

Prozess

Änderungsmanagement

Überblick

Best Practices

Rollen und Zuständigkeiten

Change Advisory Board

Arten des Änderungsmanagements

Wissensmanagement

Überblick

Was ist eine Wissensdatenbank?

Was ist wissensorientierter Service (Knowledge-Centered Service, KCS)?

Self-Service-Wissensdatenbanken

Enterprise Service Management

Überblick

HR Service Management und Delivery

Best Practices für die HR-Automatisierung

3Tipps zur Implementierung des ESM

Informationen zum Offboarding-Prozess

Strategien für das Employee Experience Management

Die 9besten Onboarding-Lösungen

Plattformen für die Mitarbeitererfahrung

ITIL

Überblick

DevOps vs. ITIL

Leitfaden zur ITIL-Servicestrategie

ITIL-Serviceüberführung

Kontinuierliche Serviceverbesserung

IT Operations

Überblick

IT-Infrastrukturmanagement

IT Operations Management

Überblick

System-Upgrade

Servicezuordnung

Application Dependency Mapping

IT-Infrastruktur

Vorfallmanagement ist der Prozess, den Entwicklungs- und IT-Operations-Teams zur Reaktion auf ein ungeplantes Ereignis oder eine Serviceunterbrechung und zur Wiederherstellung des normalen Servicebetriebs befolgen.

Wir bei Atlassian definieren einen Vorfall als ein Ereignis, das eine Störung oder eine Verringerung der Servicequalität und somit eine Notfallreaktion erfordert. Teams, die ITIL- oder ITSM-Praktiken befolgen, bezeichnen dies stattdessen vielleicht als einen schwerwiegenden Vorfall.

Vorfallmanagement: Prozesse, Best Practices und Tools (1)

Lade dir unser Handbuch zum Vorfallmanagement herunter

Lade das PDF herunter, um die Vorfallmanagement-Prinzipien und -Praktiken zu lernen und zu erfahren, wie du diese Erkenntnisse mit Jira Service Management anwenden kannst.

Handbuch herunterladen

Vorfälle sind Ereignisse jeglicher Art, die die Servicequalität stören oder (mit großer Wahrscheinlichkeit) beeinträchtigen werden. Wenn eine Geschäftsanwendung ausfällt, handelt es sich um einen Vorfall. Ein Webserver, der gerade noch so funktioniert, aber noch nicht ausgefallen ist, kann ebenfalls ein Vorfall sein. Er läuft langsam und beeinträchtigt die Produktivität. Und was noch schlimmer ist: Er läuft Gefahr, komplett auszufallen. Der Schweregrad von Vorfällen variiert stark. Er reicht von gelegentlichen Fehlern bei einigen wenigen Benutzern bis hin zum Absturz eines gesamten weltweiten Webservice.

Ein Vorfall gilt als gelöst, wenn der betroffene Service wieder normal funktioniert. Es geht also nur um die Aufgaben, die zur Reduzierung der Auswirkungen und zur Wiederherstellung der Funktionalität ausgeführt werden müssen.

So wichtig ist das Vorfallmanagement

Vorfallmanagement: Prozesse, Best Practices und Tools (2)

Die Werte von Atlassian für das Vorfallmanagement

Das Vorfallmanagement ist einer der wichtigsten Prozesse für ein Unternehmen und muss unbedingt einwandfrei funktionieren. Serviceausfälle können Unternehmen teuer zu stehen kommen. Daher benötigen Teams eine effiziente Möglichkeit, auf diese Probleme zu reagieren und sie schnell zu lösen. Teams benötigen eine zuverlässige Methode, um Vorfälle zu priorisieren, schneller zur Lösung zu gelangen und Benutzern besseren Service zu bieten.

Wenn ein Vorfall auftritt, benötigen Teams einen Plan, der ihnen Folgendes erleichtert:

  • Effektive Reaktion für eine schnelle Wiederherstellung des Service
  • Klare Kommunikation mit Kunden, Stakeholdern, Serviceverantwortlichen und anderen im Unternehmen
  • Effektive Zusammenarbeit, um das Problem im Team schneller zu beheben und Hindernisse zu beseitigen, die der Problembehebung im Wege stehen
  • Kontinuierliche Verbesserung, fortlaufendes Lernen aus Ausfällen und Nutzen der gewonnenen Erkenntnisse, um den Service zu verbessern und den Prozess für die Zukunft zu optimieren.

Interessiert dich, wie Atlassian mit schwerwiegenden Vorfällen umgeht? Wir haben ein internes Handbuch zum Vorfallmanagement herausgegeben. Du kannst es gerne nutzen, um daraus zu lernen, die beschriebenen Prozesse individuell anzupassen und auf deine eigene Weise davon zu profitieren.

Handbuch herunterladen

Verschiedene Arten von Vorfallmanagementprozess

Je nach Art des Unternehmens werden tendenziell unterschiedliche Varianten des Vorfallmanagementprozesses genutzt. Es gibt keinen Universalprozess, der für alle Unternehmen optimal ist.

Viele Teams nutzen einen traditionelleren Vorfallmanagementprozess im IT-Stil, wie er in ITIL-Zertifizierungen beschrieben wird. Andere Teams tendieren zu einem eher SRE- (Site Reliability Engineer) oder DevOps-orientierten Vorfallmanagementprozess.

IT-Vorfallmanagementprozess

Ein Vorfallmanagementprozess hilft IT-Teams beim Untersuchen, Aufzeichnen und Lösen von Serviceunterbrechungen oder -ausfällen. Der ITIL-Workflow für das Vorfallmanagement soll Ausfallzeiten reduzieren und die Auswirkungen von Vorfällen auf die Produktivität der Mitarbeiter minimieren. Mithilfe von speziell für diesen Zweck erstellten Vorlagen kannst du einen reproduzierbaren Workflow für das Vorfallmanagement erstellen, damit Teams Vorfälle protokollieren, diagnostizieren und lösen sowie ihre Aktivitäten aufzeichnen können.

Das ITIL-Framework wird hauptsächlich von IT-Teams eingesetzt, die Services in Unternehmen betreiben. In der Regel nutzen Teams bei ITIL nur das, was sie tatsächlich benötigen. ITIL deckt fast alle Arten von Vorfällen, Vorgängen und Prozessen ab, mit denen IT-Teams möglicherweise konfrontiert werden. ITIL ist ein großartiges Framework für Teams, für die die aktive Fehlerbehebung im Fokus steht. Die vorgeschriebenen Prozesse unterstützen Teams bei der konsequenten Nachverfolgung von Vorfällen und Aktionen, was die Berichterstattung und Analyse verbessert und letztlich zu einem stabileren Service und einem erfolgreicheren Team führen kann.

Schritte beim IT-Vorfallmanagement

Einen Vorfall identifizieren und protokollieren

Ein Vorfall kann von ganz unterschiedlichen Seiten gemeldet werden: von Mitarbeitern, Kunden, einem Anbieter oder von Überwachungssystemen. Unabhängig von der Quelle der Meldung sind die ersten beiden Schritte ganz einfach: Jemand identifiziert einen Vorfall, und ein anderer protokolliert ihn. Diese Vorfallprotokolle (d. h. Tickets) umfassen normalerweise Folgendes:

  • Name der Person, die den Vorfall meldet
  • Datum und Uhrzeit der Meldung des Vorfalls
  • Beschreibung des Vorfalls (Was ist ausgefallen oder funktioniert nicht richtig?)
  • Eine dem Vorfall zugewiesene eindeutige Identifikationsnummer zur Nachverfolgung

Kategorisieren

Weise jedem Vorfall eine logische, intuitive Kategorie (und ggf. auch Unterkategorie) zu. So kannst du deine Daten analysieren und nach Trends und Mustern suchen – ein wichtiger Bestandteil eines effektiven Problemmanagements, um zukünftige Vorfälle zu verhindern.

Priorisieren

Jedem Vorfall muss ein Schweregrad zugeordnet werden. Beginne mit der Bewertung der Auswirkungen auf das Unternehmen. Berücksichtige die Anzahl der betroffenen Personen, die betroffenen Service Level Agreements (SLAs) und die potenziellen Auswirkungen auf Finanzen, Sicherheit und Compliance. Vergleiche diesen Vorfall mit allen anderen offenen Vorfällen, um seine relative Priorität zu ermitteln. Die Best Practice besteht in diesem Fall darin, deine Schweregrade und Prioritätsstufen zu definieren, bevor ein Vorfall eintritt. Das macht es für Vorfallmanager einfacher, die Priorität schnell zu ermitteln.

Reagieren

  • Erstdiagnose: Im Idealfall kann dein Supportteam an vorderster Front einen Vorfall von der Diagnose bis zum Abschluss betreuen. Sollte dies nicht der Fall sein, besteht der nächste Schritt darin, alle relevanten Informationen zu protokollieren und an das Team der nächsten Stufe zu eskalieren.
  • Eskalation: Das nächste Team setzt die Diagnose anhand der protokollierten Daten fort. Wenn dieses Team den Vorfall nicht diagnostizieren kann, eskaliert es ihn an das nächste Team.
  • Kommunikation: Das Team gibt regelmäßig Mitteilungen an die betroffenen internen und externen Stakeholder weiter.
  • Untersuchung und Diagnose: Dieser Prozess wird fortgesetzt, bis die Art des Vorfalls feststeht. Manchmal ziehen Teams externe Ressourcen oder andere Abteilungsmitglieder hinzu, um sich beraten zu lassen und Hilfe bei der Lösung zu erhalten.
  • Lösung und Wiederherstellung: In diesem Schritt gelangt das Team zu einer Diagnose und ergreift die zum Lösen des Vorfalls nötigen Maßnahmen. Die Wiederherstellung bezieht sich schlicht auf die Zeitdauer, bis Vorgänge vollständig wiederhergestellt werden können. Bestimmte Fehlerkorrekturen (wie Bug-Patches) erfordern eventuell noch Tests oder müssen erst bereitgestellt werden, obwohl die richtige Lösung bereits identifiziert wurde.
  • Abschluss: Wenn der Vorfall eskaliert wurde, wird er abschließend an den Servicedesk zurückgegeben, damit er geschlossen werden kann. Um die Qualität aufrechtzuerhalten und einen reibungslosen Ablauf zu gewährleisten, dürfen nur Servicedesk-Mitarbeiter Vorfälle schließen. Derweil sollten sich Vorfallverantwortliche bei der Person, die den Vorfall gemeldet hat, erkundigen, ob die Lösung zufriedenstellend war und der Vorfall tatsächlich geschlossen werden kann.

DevOps- und SRE-Vorfallmanagementprozess

Beim DevOps- oder SRE-Ansatz für das Vorfallmanagement ist das Team, das den Service erstellt hat, auch für seinen Betrieb und bei Vorfällen für die Lösung zuständig. Dieser Ansatz erfreut sich großer Beliebtheit, seit dauerhaft verfügbare Cloud-Services, global genutzte Web-Anwendungen, Microservices und SaaS-Lösungen (Software-as-a-Service) gängig sind.

Immer häufiger wird die Software, die du für dein Privatleben und deine Arbeit benötigst, nicht mehr auf einem Server in deiner Nähe gehostet. Es handelt sich zunehmend um über das Internet verfügbare Anwendungen, die in einem Rechenzentrum für Tausende oder Millionen von Benutzern weltweit bereitgestellt werden. Teams, die für den Betrieb dieser Services zuständig sind, müssen flexibel und schnell handeln können. Ausfälle wirken sich nicht nur auf ein einziges Unternehmen aus, sondern potenziell auf mehrere Tausend.

Wenn das Team, das einen Service entwickelt hat, diesen auch betreibt, hat dies den Vorteil, dass agile Teams genügend Flexibilität erhalten. Manchmal bleibt allerdings unklar, wer wann wofür zuständig ist. DevOps-Teams kommen unter Umständen auch mit weniger strukturierten Entwicklungsprozessen zurecht und können damit erfolgreich sein. Es empfiehlt sich jedoch, eine Reihe von Kernprozessen für das Vorfallmanagement als Standard festzulegen, damit im Ernstfall klar ist, wie auf einen Vorfall reagiert werden soll. Außerdem kannst du so Probleme nachverfolgen und über ihre Behebung berichten.

Drei Überzeugungen von DevOps-Vorfallmanagementteams

  • Teams sollten sich bei der Bereitschaft abwechseln: In der Regel gibt es in DevOps-Teams kein einzelnes Teammitglied, das auf Bereitschaft spezialisiert ist, sondern die Zuständigkeit rotiert, sodass sich alle Teammitglieder die Verantwortung teilen und abwechselnd das Risiko tragen, bei einem Vorfall mitten in der Nacht geweckt zu werden.
  • Der Entwickler eines Service ist am besten für die Problembehebung bei diesem Service qualifiziert: Diese zentrale Idee steht hinter dem Ansatz, dass das Team, das einen Service entwickelt hat, diesen auch betreiben sollte.
  • Teams müssen schnell und dennoch verantwortungsbewusst entwickeln: Wenn die Entwickler wissen, dass bei einem Ausfall sie selbst und ihre Teamkollegen zur Verantwortung gezogen werden, sind sie motivierter, auf die Qualität ihres bereitgestellten Codes zu achten.

Dieser Ansatz sorgt für kurze Reaktionszeiten und schnelleres Feedback an die Teams, die wissen müssen, wie ein zuverlässiger Service entwickelt wird.

In unserem Atlassian-Handbuch zum Vorfallmanagement beschreiben wir einen sehr DevOps-freundlichen Ansatz für das Vorfallmanagement.

Tools für das Vorfallmanagement

Für das Vorfallmanagement genügt kein einzelnes Tool. Vielmehr ist eine Kombination aus passenden Tools, Verfahren und Mitarbeitern gefragt. Hier einige der gängigsten Toolkategorien für effektives Vorfallmanagement:

  • Vorfallverfolgung: Jeder Vorfall sollte verfolgt und dokumentiert werden, damit du Trends erkennen und im Laufe der Zeit Vergleiche anstellen kannst.
  • Chatraum: Kommunikation in Echtzeit ist für die gemeinsame Diagnose und Lösung eines Vorfalls im Team unverzichtbar. Außerdem hast du so später umfassende Daten für die Reaktionsanalyse zur Verfügung.
  • Videochat: Der Videochat ergänzt bei vielen Vorfällen den Textchat. Im Videochat können Teams Erkenntnisse besprechen und eine Reaktionsstrategie planen.
  • Benachrichtigungssystem: Ein Tool wie Jira Service Management wird mit dem Überwachungssystem integriert und übernimmt das Management von Bereitschaftsrotationen und Eskalationen.
  • Dokumentationstool: In einem Tool wie Confluence kannst du Dokumente zum Vorfallstatus und Post-Mortem-Analysen festhalten.
  • Statuspage: Per Statuspage lässt sich der Status mit internen Stakeholdern und mit Kunden teilen, damit alle auf dem Laufenden bleiben.

Themen rund um das Vorfallmanagement

Das Atlassian-Handbuch zum Vorfallmanagement

In diesem Handbuch findest du echte Prozesse für das Vorfallmanagement, die wir als globales Unternehmen mit Tausenden von Mitarbeitern und mehr als 200.000Kunden erarbeitet haben.

Best Practices für die Kommunikation rund um Vorfälle

Unter Vorfallkommunikation versteht man den Prozess für die Benachrichtigung von Benutzern, wenn ein Service ausfällt oder nicht mit der gewohnten Leistung arbeitet.

Incident Response

Erfahre mehr über die sechs wichtigsten Incident-Response-Phasen, Arten von Vorfällen und Tools, mit denen du deine Prozesse für ein effektives Vorfallmanagement optimieren kannst.

Bereitschaftsdienst

Teams im Bereitschaftsdienst erleben eine schnelle Weiterentwicklung. Hier kannst du dich über die Vor- und Nachteile unterschiedlicher Ansätze für das Bereitschaftsmanagement informieren.

Tools

Es gibt kein für alle Teams geeignetes Universaltool für das Vorfallmanagement. Hier erfährst du, wie du offene, zuverlässige und anpassbare Tools für diese Aufgabe auswählst.

Post-Mortem-Analyse

Die Post-Mortem-Analyse eines Vorfalls, auch als Post-Incident Review bekannt, ist die beste Methode, einen Vorfall aufzuarbeiten und die daraus gezogenen Lehren zu dokumentieren.

DevOps

Für Teams, die DevOps praktizieren, konzentriert sich der Vorfallmanagementprozess auf Transparenz und kontinuierliche Verbesserungen am Lebenszyklus von Vorfällen.

Empfohlene Tutorials

Tutorial

Informationen zu Vorfällen

In diesem Tutorial zeigen wir dir, wie du mithilfe von Vorfallvorlagen bei Ausfällen effektiv kommunizierst. Sie sind an viele Arten von Serviceunterbrechungen anpassbar.

Tutorial

Bereitschaftsplan

In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr– und das alles in Opsgenie.

Weitere Informationen zum Vorfallmanagement in Jira Service Management

Leitfaden herunterladen

Vorfallmanagement: Prozesse, Best Practices und Tools (2024)

References

Top Articles
Latest Posts
Recommended Articles
Article information

Author: Jamar Nader

Last Updated:

Views: 5655

Rating: 4.4 / 5 (55 voted)

Reviews: 86% of readers found this page helpful

Author information

Name: Jamar Nader

Birthday: 1995-02-28

Address: Apt. 536 6162 Reichel Greens, Port Zackaryside, CT 22682-9804

Phone: +9958384818317

Job: IT Representative

Hobby: Scrapbooking, Hiking, Hunting, Kite flying, Blacksmithing, Video gaming, Foraging

Introduction: My name is Jamar Nader, I am a fine, shiny, colorful, bright, nice, perfect, curious person who loves writing and wants to share my knowledge and understanding with you.