Incendie datacenter OVH du 10 mars 2021

Comme vous l’avez sans doute su, l’hébergeur français OVH a subi le pire événement d’une vie d’hébergeur dans la nuit de mardi à mercredi (9-10 mars 2021) : l’incendie de ses datacenters de Strasbourg. L’intégralité du datacenter SBG2 et un tiers du data center SBG1 sont partis en fumée (nous profitons de ce message qu’ils ne liront sans doute jamais pour exprimer toute notre sympathie aux travailleurs OVH qui sont sur le pont depuis et encore pour pas mal de temps).

Un incident de grande ampleur qui a permis de rappeler la trinité de l’administration serveur :

  1. Faire des sauvegardes de ses données ;
  2. Faire des sauvegardes de ses sauvegardes ;
  3. Vérifier ses sauvegardes.

De nombreuses entreprises hébergées dans les datacenters sinistrés d’OVH ont douloureusement découvert qu’elles ne respectaient pas une ou plusieurs de ces règles simples. D’autres, qui les respectaient, ont découvert le sous-entendu évident de ces règles : les sauvegardes, cela se fait évidemment sur un serveur différent de celui qui héberge les données, et dans un datacenter différent également (et par datacenter différent, on entend plus largement : sur un site différent).

Les serveurs Ishtar gérés par Iggdrasil sont hébergés dans les différents datacenters des deux plus grands hébergeurs français, OVH et Online / Scaleway.
Nous respectons bien entendu scrupuleusement les principes de sauvegarde exposés ci-dessus, avec des sauvegardes dans des sites différents des serveurs de production. Nos serveurs sont en outre volontairement répartis dans des sites différents pour ne pas avoir à gérer trop de sinistres en même temps. Actuellement nos serveurs sont répartis dans 11 datacenters différents, sur 4 sites : 6 des 7 datacenters OVH de Roubaix (59), les 2 datacenters OVH de Gravelines (59), 1 des 4 datacenters OVH de Strasbourg (67), les 2 datacenters Scaleway de Vitry-sur-Seine (94).

Ces choix ne laissent rien à la chance. Mais la chance a néanmoins joué en notre faveur : un seul serveur client dédié était concerné par l’incendie de Strasbourg.
Et si nos procédures de « Plan de reprise d’activité » avaient été éprouvées en format test, ce malheureux événement a été notre baptême du feu (:wink:) en conditions réelles post-désastre.

Le client concerné a subi le pire de ce que peut vivre un client avec hébergement professionnel chez Iggdrasil : l’incendie nocturne a eu lieu avant la sauvegarde quotidienne des données qui a lieu aux petites heures du matin (certains utilisateurs d’Ishtar lançant de gros imports de données en soirée, la sauvegarde quotidienne est placée aux horaires qui semblent le moins en conflit avec cet usage). La dernière sauvegarde datait donc de mardi matin. Par chance, l’instance n’avait pas été utilisée le mardi, aucune perte de données n’est donc à déplorer.
Côté serveur, entre commande d’un nouveau serveur chez OVH, déploiement de celui-ci par OVH, installation de la distribution Debian, de l’environnement nécessaire et de la dernière version d’Ishtar et restauration de la sauvegarde de la veille, le client a pu retrouver une instance fonctionnelle en 6h ouvrées. Il nous restait encore à remettre en place les sauvegardes de cette nouvelle instance, l’instance de formation et la vitrine. Cela a été fait dans les heures suivantes.

Conclusions de ce baptême du feu :

  • seulement 6h ouvrées d’indisponibilité de l’instance ;
  • aucune perte de données en l’occurrence, et dans le pire des cas, les éléments créés ou modifiés lors de la journée du mardi.

Pour plus de détails, nous avons publié un post-mortem précis de l’évènement de notre point de vue.

Cet événement est également l’occasion de rappeler les garanties offertes par Iggdrasil pour les différents types d’instance :

  • instance en production sur hébergement professionnel : sauvegardes quotidiennes doublées, dans des sites différents ; remise en place d’une instance dans les deux jours ouvrés (des délais inférieurs pourraient être proposés, mais à des tarifs bien entendu supérieurs aux tarifs pratiqués actuellement pour s’adapter aux budgets archéo ; dans la pratique, ces deux jours ouvrés sont surtout annoncés pour couvrir le délai de rétablissement par OVH ou Online dans les cas moins tragiques où l’instance existante peut repartir, par exemple suite à un changement de disque dur) ;
  • instance en mécénat (fouilles programmées et projets collectifs de recherche soutenus par Iggdrasil) : même qualité de sauvegarde, pas de garantie de délai annoncé, on fait au mieux en fonction des circonstances (en l’occurrence sans doute deux jours ouvrés également) ;
  • instance en test gratuite : aucune sauvegarde, aucune garantie de délai pour la remise en place de l’instance. Dans la pratique, comme on sait que des instances en test sont en fait utilisés en production et qu’on s’auto-assigne une mission de service public, nous réalisons tout de même les sauvegardes… mais vous ne devriez pas compter dessus, et nous ne garantissons rien d’autre que notre bonne volonté.