Management von Serviceanfragen
Überblick
Best Practices für den Aufbau eines Servicedesk
IT-Metriken und -Berichte
SLAs: Was, warum und wie?
Warum die Lösung beim ersten Anruf so wichtig ist
Helpdesk
Unterschiede zwischen den Begriffen "Servicedesk", "Helpdesk" und "ITSM"
IT-Support nach dem DevOps-Ansatz
Interaktive Ticketlösungen
Jira Service Management individuell anpassen
Übergang vom E-Mail-Support
Servicekatalog
Was ist ein virtueller Agent?
Ein Überblick über IT-Services und ihre Bedeutung
IT-Asset-Management
Überblick
Configuration Management Databases (CMDs)
Konfigurationsmanagement und Asset-Management
Best Practices für das IT- und Software-Asset-Management
Asset-Verfolgung
Hardware-Asset-Management
Vorfallmanagement
Überblick
IT Service Continuity Management (ITSCM)
Informationen zu Vorfällen
Vorlagen
Workshop
Incident Response
Best Practices
Einsatzleiter
Luftfahrt
Rollen und Zuständigkeiten
Lebenszyklus
Playbook
Bereitschaftsdienst
Bereitschaftspläne
Bezahlung im Bereitschaftsdienst
Alarm-Fatigue
Verbesserung des Bereitschaftsdienstes
IT-Warnmeldungen
Eskalationsrichtlinien ansehen
Tools
Vorlage
Eskalationspfad-Vorlage
KPIs
Gängige Metriken
Schweregrade
Kosten von Ausfällen
SLA, SLO und SLI
Fehlerbudget
Zuverlässigkeit und Verfügbarkeit
MTTF (Mean Time to Failure)
DevOps
SRE
You build it, you run it
Problemmanagement und Vorfallmanagement
ChatOps
IT-Service-Management (ITSM)
Management von größeren Vorfällen
Management von IT-Vorfällen
Modernes Vorfallmanagement für IT-Ops
So entwickelst du einen IT-Disaster-Recovery-Plan
Beispiele für Disaster-Recovery-Pläne
Best Practices für das Bug-Tracking
Post-Mortem-Analyse
Vorlage
Ohne Schuldzuweisungen
Berichte
Meeting
Zeitleisten
5Warum-Fragen
Öffentlich vs. privat
Tutorials
Informationen zu Vorfällen
Bereitschaftsplan
Automatisierung von Kundenbenachrichtigungen
Handbuch
Incident Response
Post-Mortem-Analysen
Vorlagengenerator
Glossar
Handbuch herunterladen
Der Stand des Vorfallmanagements2020
Der Stand des Vorfallmanagements2021
IT-Management
Überblick
Problemmanagement
Überblick
Vorlage
Rollen und Zuständigkeiten
Prozess
Änderungsmanagement
Überblick
Best Practices
Rollen und Zuständigkeiten
Change Advisory Board
Arten des Änderungsmanagements
Wissensmanagement
Überblick
Was ist eine Wissensdatenbank?
Was ist wissensorientierter Service (Knowledge-Centered Service, KCS)?
Self-Service-Wissensdatenbanken
Enterprise Service Management
Überblick
HR Service Management und Delivery
Best Practices für die HR-Automatisierung
3Tipps zur Implementierung des ESM
Informationen zum Offboarding-Prozess
Strategien für das Employee Experience Management
Die 9besten Onboarding-Lösungen
Plattformen für die Mitarbeitererfahrung
ITIL
Überblick
DevOps vs. ITIL
Leitfaden zur ITIL-Servicestrategie
ITIL-Serviceüberführung
Kontinuierliche Serviceverbesserung
IT Operations
Überblick
IT-Infrastrukturmanagement
IT Operations Management
Überblick
System-Upgrade
Servicezuordnung
Application Dependency Mapping
IT-Infrastruktur
Vorfallmanagement ist der Prozess, den Entwicklungs- und IT-Operations-Teams zur Reaktion auf ein ungeplantes Ereignis oder eine Serviceunterbrechung und zur Wiederherstellung des normalen Servicebetriebs befolgen.
Wir bei Atlassian definieren einen Vorfall als ein Ereignis, das eine Störung oder eine Verringerung der Servicequalität und somit eine Notfallreaktion erfordert. Teams, die ITIL- oder ITSM-Praktiken befolgen, bezeichnen dies stattdessen vielleicht als einen schwerwiegenden Vorfall.
Lade dir unser Handbuch zum Vorfallmanagement herunter
Lade das PDF herunter, um die Vorfallmanagement-Prinzipien und -Praktiken zu lernen und zu erfahren, wie du diese Erkenntnisse mit Jira Service Management anwenden kannst.
Vorfälle sind Ereignisse jeglicher Art, die die Servicequalität stören oder (mit großer Wahrscheinlichkeit) beeinträchtigen werden. Wenn eine Geschäftsanwendung ausfällt, handelt es sich um einen Vorfall. Ein Webserver, der gerade noch so funktioniert, aber noch nicht ausgefallen ist, kann ebenfalls ein Vorfall sein. Er läuft langsam und beeinträchtigt die Produktivität. Und was noch schlimmer ist: Er läuft Gefahr, komplett auszufallen. Der Schweregrad von Vorfällen variiert stark. Er reicht von gelegentlichen Fehlern bei einigen wenigen Benutzern bis hin zum Absturz eines gesamten weltweiten Webservice.
Ein Vorfall gilt als gelöst, wenn der betroffene Service wieder normal funktioniert. Es geht also nur um die Aufgaben, die zur Reduzierung der Auswirkungen und zur Wiederherstellung der Funktionalität ausgeführt werden müssen.
So wichtig ist das Vorfallmanagement
Die Werte von Atlassian für das Vorfallmanagement
Das Vorfallmanagement ist einer der wichtigsten Prozesse für ein Unternehmen und muss unbedingt einwandfrei funktionieren. Serviceausfälle können Unternehmen teuer zu stehen kommen. Daher benötigen Teams eine effiziente Möglichkeit, auf diese Probleme zu reagieren und sie schnell zu lösen. Teams benötigen eine zuverlässige Methode, um Vorfälle zu priorisieren, schneller zur Lösung zu gelangen und Benutzern besseren Service zu bieten.
Wenn ein Vorfall auftritt, benötigen Teams einen Plan, der ihnen Folgendes erleichtert:
- Effektive Reaktion für eine schnelle Wiederherstellung des Service
- Klare Kommunikation mit Kunden, Stakeholdern, Serviceverantwortlichen und anderen im Unternehmen
- Effektive Zusammenarbeit, um das Problem im Team schneller zu beheben und Hindernisse zu beseitigen, die der Problembehebung im Wege stehen
- Kontinuierliche Verbesserung, fortlaufendes Lernen aus Ausfällen und Nutzen der gewonnenen Erkenntnisse, um den Service zu verbessern und den Prozess für die Zukunft zu optimieren.
Interessiert dich, wie Atlassian mit schwerwiegenden Vorfällen umgeht? Wir haben ein internes Handbuch zum Vorfallmanagement herausgegeben. Du kannst es gerne nutzen, um daraus zu lernen, die beschriebenen Prozesse individuell anzupassen und auf deine eigene Weise davon zu profitieren.
Handbuch herunterladen
Verschiedene Arten von Vorfallmanagementprozess
Je nach Art des Unternehmens werden tendenziell unterschiedliche Varianten des Vorfallmanagementprozesses genutzt. Es gibt keinen Universalprozess, der für alle Unternehmen optimal ist.
Viele Teams nutzen einen traditionelleren Vorfallmanagementprozess im IT-Stil, wie er in ITIL-Zertifizierungen beschrieben wird. Andere Teams tendieren zu einem eher SRE- (Site Reliability Engineer) oder DevOps-orientierten Vorfallmanagementprozess.
IT-Vorfallmanagementprozess
Ein Vorfallmanagementprozess hilft IT-Teams beim Untersuchen, Aufzeichnen und Lösen von Serviceunterbrechungen oder -ausfällen. Der ITIL-Workflow für das Vorfallmanagement soll Ausfallzeiten reduzieren und die Auswirkungen von Vorfällen auf die Produktivität der Mitarbeiter minimieren. Mithilfe von speziell für diesen Zweck erstellten Vorlagen kannst du einen reproduzierbaren Workflow für das Vorfallmanagement erstellen, damit Teams Vorfälle protokollieren, diagnostizieren und lösen sowie ihre Aktivitäten aufzeichnen können.
Das ITIL-Framework wird hauptsächlich von IT-Teams eingesetzt, die Services in Unternehmen betreiben. In der Regel nutzen Teams bei ITIL nur das, was sie tatsächlich benötigen. ITIL deckt fast alle Arten von Vorfällen, Vorgängen und Prozessen ab, mit denen IT-Teams möglicherweise konfrontiert werden. ITIL ist ein großartiges Framework für Teams, für die die aktive Fehlerbehebung im Fokus steht. Die vorgeschriebenen Prozesse unterstützen Teams bei der konsequenten Nachverfolgung von Vorfällen und Aktionen, was die Berichterstattung und Analyse verbessert und letztlich zu einem stabileren Service und einem erfolgreicheren Team führen kann.
Schritte beim IT-Vorfallmanagement
Einen Vorfall identifizieren und protokollieren
Ein Vorfall kann von ganz unterschiedlichen Seiten gemeldet werden: von Mitarbeitern, Kunden, einem Anbieter oder von Überwachungssystemen. Unabhängig von der Quelle der Meldung sind die ersten beiden Schritte ganz einfach: Jemand identifiziert einen Vorfall, und ein anderer protokolliert ihn. Diese Vorfallprotokolle (d. h. Tickets) umfassen normalerweise Folgendes:
- Name der Person, die den Vorfall meldet
- Datum und Uhrzeit der Meldung des Vorfalls
- Beschreibung des Vorfalls (Was ist ausgefallen oder funktioniert nicht richtig?)
- Eine dem Vorfall zugewiesene eindeutige Identifikationsnummer zur Nachverfolgung
Kategorisieren
Weise jedem Vorfall eine logische, intuitive Kategorie (und ggf. auch Unterkategorie) zu. So kannst du deine Daten analysieren und nach Trends und Mustern suchen – ein wichtiger Bestandteil eines effektiven Problemmanagements, um zukünftige Vorfälle zu verhindern.
Priorisieren
Jedem Vorfall muss ein Schweregrad zugeordnet werden. Beginne mit der Bewertung der Auswirkungen auf das Unternehmen. Berücksichtige die Anzahl der betroffenen Personen, die betroffenen Service Level Agreements (SLAs) und die potenziellen Auswirkungen auf Finanzen, Sicherheit und Compliance. Vergleiche diesen Vorfall mit allen anderen offenen Vorfällen, um seine relative Priorität zu ermitteln. Die Best Practice besteht in diesem Fall darin, deine Schweregrade und Prioritätsstufen zu definieren, bevor ein Vorfall eintritt. Das macht es für Vorfallmanager einfacher, die Priorität schnell zu ermitteln.
Reagieren
- Erstdiagnose: Im Idealfall kann dein Supportteam an vorderster Front einen Vorfall von der Diagnose bis zum Abschluss betreuen. Sollte dies nicht der Fall sein, besteht der nächste Schritt darin, alle relevanten Informationen zu protokollieren und an das Team der nächsten Stufe zu eskalieren.
- Eskalation: Das nächste Team setzt die Diagnose anhand der protokollierten Daten fort. Wenn dieses Team den Vorfall nicht diagnostizieren kann, eskaliert es ihn an das nächste Team.
- Kommunikation: Das Team gibt regelmäßig Mitteilungen an die betroffenen internen und externen Stakeholder weiter.
- Untersuchung und Diagnose: Dieser Prozess wird fortgesetzt, bis die Art des Vorfalls feststeht. Manchmal ziehen Teams externe Ressourcen oder andere Abteilungsmitglieder hinzu, um sich beraten zu lassen und Hilfe bei der Lösung zu erhalten.
- Lösung und Wiederherstellung: In diesem Schritt gelangt das Team zu einer Diagnose und ergreift die zum Lösen des Vorfalls nötigen Maßnahmen. Die Wiederherstellung bezieht sich schlicht auf die Zeitdauer, bis Vorgänge vollständig wiederhergestellt werden können. Bestimmte Fehlerkorrekturen (wie Bug-Patches) erfordern eventuell noch Tests oder müssen erst bereitgestellt werden, obwohl die richtige Lösung bereits identifiziert wurde.
- Abschluss: Wenn der Vorfall eskaliert wurde, wird er abschließend an den Servicedesk zurückgegeben, damit er geschlossen werden kann. Um die Qualität aufrechtzuerhalten und einen reibungslosen Ablauf zu gewährleisten, dürfen nur Servicedesk-Mitarbeiter Vorfälle schließen. Derweil sollten sich Vorfallverantwortliche bei der Person, die den Vorfall gemeldet hat, erkundigen, ob die Lösung zufriedenstellend war und der Vorfall tatsächlich geschlossen werden kann.
DevOps- und SRE-Vorfallmanagementprozess
Beim DevOps- oder SRE-Ansatz für das Vorfallmanagement ist das Team, das den Service erstellt hat, auch für seinen Betrieb und bei Vorfällen für die Lösung zuständig. Dieser Ansatz erfreut sich großer Beliebtheit, seit dauerhaft verfügbare Cloud-Services, global genutzte Web-Anwendungen, Microservices und SaaS-Lösungen (Software-as-a-Service) gängig sind.
Immer häufiger wird die Software, die du für dein Privatleben und deine Arbeit benötigst, nicht mehr auf einem Server in deiner Nähe gehostet. Es handelt sich zunehmend um über das Internet verfügbare Anwendungen, die in einem Rechenzentrum für Tausende oder Millionen von Benutzern weltweit bereitgestellt werden. Teams, die für den Betrieb dieser Services zuständig sind, müssen flexibel und schnell handeln können. Ausfälle wirken sich nicht nur auf ein einziges Unternehmen aus, sondern potenziell auf mehrere Tausend.
Wenn das Team, das einen Service entwickelt hat, diesen auch betreibt, hat dies den Vorteil, dass agile Teams genügend Flexibilität erhalten. Manchmal bleibt allerdings unklar, wer wann wofür zuständig ist. DevOps-Teams kommen unter Umständen auch mit weniger strukturierten Entwicklungsprozessen zurecht und können damit erfolgreich sein. Es empfiehlt sich jedoch, eine Reihe von Kernprozessen für das Vorfallmanagement als Standard festzulegen, damit im Ernstfall klar ist, wie auf einen Vorfall reagiert werden soll. Außerdem kannst du so Probleme nachverfolgen und über ihre Behebung berichten.
Drei Überzeugungen von DevOps-Vorfallmanagementteams
- Teams sollten sich bei der Bereitschaft abwechseln: In der Regel gibt es in DevOps-Teams kein einzelnes Teammitglied, das auf Bereitschaft spezialisiert ist, sondern die Zuständigkeit rotiert, sodass sich alle Teammitglieder die Verantwortung teilen und abwechselnd das Risiko tragen, bei einem Vorfall mitten in der Nacht geweckt zu werden.
- Der Entwickler eines Service ist am besten für die Problembehebung bei diesem Service qualifiziert: Diese zentrale Idee steht hinter dem Ansatz, dass das Team, das einen Service entwickelt hat, diesen auch betreiben sollte.
- Teams müssen schnell und dennoch verantwortungsbewusst entwickeln: Wenn die Entwickler wissen, dass bei einem Ausfall sie selbst und ihre Teamkollegen zur Verantwortung gezogen werden, sind sie motivierter, auf die Qualität ihres bereitgestellten Codes zu achten.
Dieser Ansatz sorgt für kurze Reaktionszeiten und schnelleres Feedback an die Teams, die wissen müssen, wie ein zuverlässiger Service entwickelt wird.
In unserem Atlassian-Handbuch zum Vorfallmanagement beschreiben wir einen sehr DevOps-freundlichen Ansatz für das Vorfallmanagement.
Tools für das Vorfallmanagement
Für das Vorfallmanagement genügt kein einzelnes Tool. Vielmehr ist eine Kombination aus passenden Tools, Verfahren und Mitarbeitern gefragt. Hier einige der gängigsten Toolkategorien für effektives Vorfallmanagement:
- Vorfallverfolgung: Jeder Vorfall sollte verfolgt und dokumentiert werden, damit du Trends erkennen und im Laufe der Zeit Vergleiche anstellen kannst.
- Chatraum: Kommunikation in Echtzeit ist für die gemeinsame Diagnose und Lösung eines Vorfalls im Team unverzichtbar. Außerdem hast du so später umfassende Daten für die Reaktionsanalyse zur Verfügung.
- Videochat: Der Videochat ergänzt bei vielen Vorfällen den Textchat. Im Videochat können Teams Erkenntnisse besprechen und eine Reaktionsstrategie planen.
- Benachrichtigungssystem: Ein Tool wie Jira Service Management wird mit dem Überwachungssystem integriert und übernimmt das Management von Bereitschaftsrotationen und Eskalationen.
- Dokumentationstool: In einem Tool wie Confluence kannst du Dokumente zum Vorfallstatus und Post-Mortem-Analysen festhalten.
- Statuspage: Per Statuspage lässt sich der Status mit internen Stakeholdern und mit Kunden teilen, damit alle auf dem Laufenden bleiben.
Themen rund um das Vorfallmanagement
Das Atlassian-Handbuch zum Vorfallmanagement
In diesem Handbuch findest du echte Prozesse für das Vorfallmanagement, die wir als globales Unternehmen mit Tausenden von Mitarbeitern und mehr als 200.000Kunden erarbeitet haben.
Best Practices für die Kommunikation rund um Vorfälle
Unter Vorfallkommunikation versteht man den Prozess für die Benachrichtigung von Benutzern, wenn ein Service ausfällt oder nicht mit der gewohnten Leistung arbeitet.
Incident Response
Erfahre mehr über die sechs wichtigsten Incident-Response-Phasen, Arten von Vorfällen und Tools, mit denen du deine Prozesse für ein effektives Vorfallmanagement optimieren kannst.
Bereitschaftsdienst
Teams im Bereitschaftsdienst erleben eine schnelle Weiterentwicklung. Hier kannst du dich über die Vor- und Nachteile unterschiedlicher Ansätze für das Bereitschaftsmanagement informieren.
Tools
Es gibt kein für alle Teams geeignetes Universaltool für das Vorfallmanagement. Hier erfährst du, wie du offene, zuverlässige und anpassbare Tools für diese Aufgabe auswählst.
Post-Mortem-Analyse
Die Post-Mortem-Analyse eines Vorfalls, auch als Post-Incident Review bekannt, ist die beste Methode, einen Vorfall aufzuarbeiten und die daraus gezogenen Lehren zu dokumentieren.
DevOps
Für Teams, die DevOps praktizieren, konzentriert sich der Vorfallmanagementprozess auf Transparenz und kontinuierliche Verbesserungen am Lebenszyklus von Vorfällen.
Empfohlene Tutorials
Tutorial
Informationen zu Vorfällen
In diesem Tutorial zeigen wir dir, wie du mithilfe von Vorfallvorlagen bei Ausfällen effektiv kommunizierst. Sie sind an viele Arten von Serviceunterbrechungen anpassbar.
Tutorial
Bereitschaftsplan
In diesem Tutorial erfährst du, wie du einen Bereitschaftsplan einrichtest, Regeln für Außerkraftsetzungen anwendest, Bereitschaftsbenachrichtigungen konfigurierst und vieles mehr– und das alles in Opsgenie.
Weitere Informationen zum Vorfallmanagement in Jira Service Management
Leitfaden herunterladen