Retour sur l'incident du 1er juin

Dimanche a été l'occasion d'un bel incident sur notre infrastructure ayant causé l'indisponibilité de tous les services hébergés chez OVH pendant plus de 24 heures. Un petit retour sur les événements est donc de bonne augure.

Au commencement était la maintenance sur un hyperviseur de TeDomum jeudi soir (sauron, principal hyperviseur chez OVH). Suite à la vulnérabilité CVE-2014-0196 (élévation de privilèges sur le noyau Linux), nous avons dû programmer une extinction de la machine afin de mettre à jour les composants incriminés. Le redémarrage a été l'occasion de plusieurs modifications d'infrastructure latentes depuis des semaines afin de limiter le nombre d'interruptions.

Ainsi, nous avons mis à jour la version de ZNC sur les bouncers IRC et généralisé une configuration de type routage sur l'infrastructure là où l'essentiel était jusqu'alors connecté directement à Internet. La mise en route a nécessité quelques ajustements mais la maintenance s'est finalement déroulée sans trop d'accroc majeur. Une seconde phase à la généralisation du routage était prévue pour les jours à venir.

Cette seconde phase a débuté dans la nuit de samedi à dimanche, où tous les services ont été redémarrés pour basculer sur la nouvelle topologie, comme prévu. Toutefois, des soucis de connectivité ont rapidement émergé qui n'ont été résolus qu'après plusieurs heures de tests et sans qu'aucune explication ne satisfasse notre inquiétude.

Durant la journée de dimanche, de nouveaux soucis de connectivité sont apparus, différents de la veille et laissant supposer une erreur de conception dans notre topologie, que nous avons reprise depuis zéro. A ce stade, le routage IPv6 n'était pas fonctionnel en dehors de notre hyperviseur (pas de routage possible dans nos machines virtuelles) et le routage IPv4 était simplement non fonctionnel. Après être entrés en contact avec notre fournisseur (OVH) pour signaler l'incident, nous avons abandonné le routage IPv6 dans les machines virtuelles au profil de l'hyperviseur qui traite dorénavant tout l'aiguillage des paquets.

Après plus d'une heure de dialogue avec les équipes de support OVH, nous sommes parvenus à rétablir le routage IPv4 pour l'une des quelques 30 adresses utilisées sur cette machine. Les symptômes étant identiques pour les autres adresses, nous avons sollicité leur support pour que les mêmes correctifs soient déployés, sans succès. Un nouveau ticket d'incident a été initié auprès de leurs services dans la nuit de dimanche à lundi afin de remédier à la situation au plus vite.

Lundi soir, sans être parvenu à dialoguer constructivement concernant le ticket d'incident, un nouvel entretien téléphonique a permis de débloquer les actions chez OVH pour que la situation soit finalement améliorée à presque 19h (près de la moitié du routage rétabli) et enfin débloquée à 20h.