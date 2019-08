Actualité du 05/08/19

Dans la nuit du 3 au 4 août, Keyyo, opérateur de Téléphonie et Internet pour les entreprises a organisé un crash test simulant la perte de l'un de ses data centers. La fiabilité étant au cœur des engagements de Keyyo, cette importante opération permet à l'opérateur de tester la redondance de ses services. Christophe Sollet, Directeur Général Adjoint Technique, nous explique.

Pourquoi Keyyo met en place un crash test ?

L'infrastructure de Keyyo est aujourd'hui répartie sur 3 data centers situés en France, qui ont pour vocation d'assurer une résilience du service en cas de dysfonctionnement de l'un d'entre eux. Un data center est un endroit extrêmement sécurisé, alimenté par deux sources d'énergie distinctes. Les plateformes de services de Keyyo y sont également redondées. Accident grave, incendie ou tout simplement erreur humaine, malgré toutes ces protections, nous ne sommes cependant jamais à l'abri de perdre un data center.

C'est ce qu'il nous est arrivé en 2014. Notre infrastructure avait bien de la résilience donc les services de nos clients ont été basculés sur un autre data center mais la charge immédiate a été telle que le système n'a pas supporté. Nous avons donc travaillé pour affiner l'architecture de notre infrastructure. Puis afin de nous assurer que celle-ci soit bien capable d'encaisser une montée en charge aussi importante si nous étions amenés à perdre à nouveau un data center, nous avons décidé de simuler nous-même cette panne. Et depuis nous organisons des crash tests tous les 6 mois car c'est le meilleur moyen que nous avons trouvé de contrôler notre résilience.

Et depuis, avez-vous subi d'autres situations de ce type ?

Depuis que l'on programme nos crash tests, nous avons eu un autre cas de ce type. Suite à une erreur humaine d'un prestataire, nous avons subi la perte d'un data center à midi en pleine journée et en pleine semaine. Nous avons estimé que 95% des services sont restés sans impact. Cela a donc prouvé l'intérêt de ce type d'opération.

Comment ça se passe un crash test ?

Nous organisons deux crash tests par an, en rotation sur 2 des 3 data centers. Nous les programmons sur des périodes où nous estimons que le risque d'impact sur nos clients est limité : le premier en février pendant les vacances scolaires et le second l'été au mois d'août, toujours au milieu d'un week-end. Bien entendu, nos clients sont prévenus en amont.

Les crash tests mobilisent, selon le data center, entre 10 et 15 personnes en interne pendant près de 48h. Toutes les opérations sont scriptées et préparées, chaque personne a une liste d'actions bien définie à faire. Le soir du test les équipes contrôlent d'abord l'intégralité des services avant l'intervention. Elles vérifient que tout est fonctionnel et qu'il n'y a pas de défauts pé-existants. La coupure a lieu aux alentours de 00h. A ce moment-là, nous isolons complètement le data center du reste du réseau. Nous simulons alors une panne brutale.

2nde phase : nous relançons tous nos tests pour nous assurer que les services fonctionnent et que les impacts sont conformes à ce que nous avions anticipé. Si nous découvrons à cette occasion des petits dysfonctionnements dans la résilience et qu'ils peuvent être corrigés dans la foulée, nous les corrigeons et si ce n'est pas cas, nous les analysons et programmons les actions correctrices pour plus tard. Ensuite nous rallumons, remettons tout en service et retestons l'ensemble de la plateforme pour vérifier que tout est bien fonctionnel et qu'il n'y a pas eu d'impact suite à la remise en service. Durant toute la journée du dimanche il y a également une surveillance plus pointue du réseau pour s'assurer qu'il n'y a pas de défaut a posteriori.

Qu'en pensent nos clients, partenaires ?

On entend souvent dire qu'il faut 'oser' ! Effectivement nous n'avons pas d'exemple connu d'autres opérateurs qui testent en temps réel et de manière aussi poussée leur plateforme.

Nos clients et partenaires montrent souvent un grand intérêt lorsqu'on leur parle du crash test. Ils sont curieux du fonctionnement et nous questionnent sur les retours et l'apport de cette opération. Ça les rassure beaucoup.

Cela démontre aussi que nous avons confiance en notre plateforme, que celle-ci tient la route et qu'elle est totalement redondante.