Fermez

Manuel de gestion des incidents Atlassian

Présentation

Les équipes responsables de services techniques devraient être disponibles 24h/24 et 7j/7.

En cas de problème (panne ou bug de fonctionnalité), les membres de l'équipe doivent réagir immédiatement et restaurer le service. Ce processus, appelé gestion des incidents, est un défi permanent et complexe pour les entreprises de toute taille.

We want to help teams everywhere improve their incident management. Inspired by teams like Google, we've created this handbook as a summary of Atlassian's incident management process. These are the lessons we've learned responding to incidents for more than a decade. While it’s based on our unique experiences, we hope it can be adapted to suit the needs of your own team.

Répondre à un incident

Processus de réponse et étapes à suivre lorsqu'un incident est détecté.

Post-mortems des incidents

Exécution d'un post-mortem sans reproche, identification des causes profondes et planification du travail de résolution

Aperçu du manuel sur les incidents

À qui est destiné ce guide ?

Si vous faites partie d'une équipe de développement ou opérationnelle responsable des services Internet pour des clients nécessitant une disponibilité 24h/24 et 7j/7, ce manuel est fait pour vous.

Qu'est-ce qu'un incident ?

Nous définissons un incident comme un événement ayant provoqué une perturbation ou une réduction de la qualité d'un service nécessitant une réponse d'urgence. À la place, les équipes qui adoptent les pratiques ITIL ou ITSM préfèrent le terme « incident majeur ».

Un incident est résolu lorsque le service affecté fonctionne de nouveau de manière habituelle. Cela inclut uniquement les tâches requises pour restaurer toutes les fonctionnalités. 

Le post-mortem de l'incident est réalisé après l'incident pour en déterminer la cause profonde et mettre en œuvre des mesures pour la corriger avant qu'elle ne provoque un nouvel incident.

Nos valeurs en matière d'incidents

Un processus de gestion des incidents ne saurait couvrir toutes les situations possibles, c'est pourquoi nous fournissons à nos équipes des conseils généraux sous forme de valeurs. À l'instar des valeurs d'entreprise d'Atlassian, nos valeurs en matière d'incident sont conçues pour :

  • guider une prise de décisions autonome par les personnes et les équipes responsables des incidents et des post-mortems ; 

  • développer une culture d'identification, de gestion et d'apprentissage des incidents cohérente entre les équipes ;

  • aligner les équipes quant à l'attitude qu'elles doivent adopter aux étapes d'identification, de résolution et d'analyse des incidents.

Étape Valeur relative aux incidents Valeur liée à Atlassian Justification
1. Détection Atlassian sait avant ses clients

Build with Heart and Balance

Un service équilibré inclut suffisamment de surveillance et d'alertes pour détecter les incidents avant nos clients. 

Une surveillance de pointe nous prévient des problèmes avant même qu'ils ne deviennent des incidents.

2. Réaction Faites remonter, faites remonter, faites remonter 

Play, as a Team

Nobody likes being woken up and we don’t take the responsibility lightly. But people understand that occasionally they will be woken for an incident where it turns out they aren't needed. What’s usually harder is waking up to a major incident and playing catch up when you should have been alerted earlier.

Nous n'avons pas toujours toutes les réponses, donc « n'hésitez pas à faire remonter ».

3. Reprise Quand c'est la cata, la solution doit être rapide Ne !@#$ les clients

Nos clients ne veulent pas savoir pourquoi leur service ne fonctionne pas, tout ce qu'ils souhaitent c'est que nous le restaurions aussi vite que possible.

N'hésitez jamais à résoudre un incident au plus vite pour réduire son impact sur nos clients. 

4. Apprentissage Toujours sans reproche Open Company, No Bullshit Les incidents font partie de l'exécution de services. Nous améliorons nos services en responsabilisant nos équipes, pas en rejetant la faute.
5. Amélioration Évitez la répétition du même incident Be the Change You Seek

Identifiez la cause profonde et les changements qui empêcheront cette classe entière d'incidents de se reproduire.

Engagez-vous à apporter des changements spécifiques à des dates précises.

 

Exigences relatives aux outils

Le processus de gestion des incidents décrit ici utilise plusieurs outils spécifiques à Atlassian et pouvant être remplacés selon les besoins :

  • Suivi des incidents : chaque incident est suivi comme un ticket Jira, avec un ticket de suivi créé pour suivre l'achèvement des post-mortems (Atlassian utilisait une version fortement personnalisée de Jira Software avant la sortie de Jira Ops).

  • Groupe de discussion : un canal de communication écrite en temps réel est fondamental pour diagnostiquer et résoudre l'incident en équipe.

  • Tchat vidéo : pour de nombreux incidents, un tchat vidéo d'équipe comme Blue Jeans peut vous aider à discuter et à vous mettre d'accord sur les approches.

  • Système d'alertes : un outil comme OpsGenie gère les rotations d'astreinte et les remontées.

  • Outil de documentation : nous utilisons Confluence pour nos documents d'état d'incident et pour le partage de post-mortems via des blogs.

  • Statuspage : communiquer l'état aux parties prenantes internes et aux clients via Statuspage permet de tenir en permanence tout le monde au courant.

Suivi des incidents

Chaque incident est suivi comme un ticket Jira, avec un ticket de suivi créé pour suivre l'achèvement des post-mortems. Le processus de ce manuel fait référence à notre version fortement personnalisée de Jira Software, qui a inspiré la création de Jira Ops. En tant que tel, il ne correspond pas exactement aux fonctionnalités disponibles dans Jira Ops aujourd'hui.

Les tickets d'incidents sont généralement créés par un ingénieur de support en réponse à un ticket client ou par un développeur reconnaissant une alerte de surveillance comme un incident. Nous exhortons toute personne à créer un ticket si quelque chose la préoccupe au lieu d'attendre que le problème potentiel ne s'aggrave.

Dans Jira, nous disposons d'un workflow simple pour suivre les incidents au cours de la phase de résolution et pour enregistrer toutes les actions importantes prises pendant la réponse à l'incident.

Responsable des incidents

Chaque incident est géré par un responsable de l'incident qui est globalement garant et dispose de toute autorité pour l'incident. Cette personne est indiquée par le responsable sur le ticket de l'incident. Le responsable de l'incident est habilité à prendre toutes les mesures nécessaires pour résoudre l'incident, ce qui implique notamment de contacter toute personne de l'organisation et de veiller à ce que les personnes impliquées dans un incident restent concentrées sur une restauration aussi rapide que possible du service. 

Le responsable de l'incident est un rôle, plutôt qu'une personne spécifique. Définir des rôles lors d'un incident s'avère bénéfique, car cela rend les personnes interchangeables. Tant qu'une personne donnée sait jouer un certain rôle, elle peut jouer ce rôle pour tout incident.

Vous avez des idées ou des suggestions pour ce guide ?

Bien ! Vous pouvez envoyer votre feedback à incident-handbook@atlassian.com et nous dire ce que vous en pensez.

Répondre à un incident

Processus de réponse et étapes à suivre lorsqu'un incident est détecté.

Post-mortems des incidents

Exécution d'un post-mortem sans reproche, identification des causes profondes et planification du travail de résolution

Vous recherchez un outil pour vous aider à exécuter un processus de gestion des incidents ?