Panne de cloud :pourquoi et comment cela se produit-il ?

Plus l'informatique s'appuie sur les services cloud, plus vous risquez de subir des temps d'arrêt et des pertes de revenus en raison d'une panne du cloud. Plus de 60 % des organisations qui utilisent le cloud public signalent des pertes en 2022 en raison de ces incidents, de sorte que les pannes ne sont pas un événement anormal auquel les entreprises ne sont pas susceptibles de faire face.

Mais les pannes sont-elles une raison suffisante pour quitter le cloud pour de bon ? Ou devriez-vous vous en tenir à ce type d'infrastructure malgré le risque d'indisponibilité occasionnelle ?

Cet article passe en revue tout ce que vous devez savoir sur les pannes de cloud . Nous décrivons leurs principales causes, examinons des statistiques révélatrices, montrons comment minimiser l'impact des temps d'arrêt du cloud et examinons les pannes les plus importantes survenues ces dernières années.

Qu'est-ce qu'une panne de cloud ?

Une panne de cloud est une période pendant laquelle les services d'un fournisseur de cloud ne sont pas disponibles pour les utilisateurs finaux. L'infrastructure du fournisseur tombe en panne (en raison d'un bogue, d'une panne de courant, etc.) et les clients perdent l'accès aux actifs basés sur le cloud jusqu'à ce que le fournisseur résolve le problème.

En termes d'impact, il n'y a aucune différence entre un centre de données sur site en panne et une panne de cloud. Vous perdez l'accès aux actifs informatiques dans les deux cas, mais l'approche non interventionniste du cloud computing ajoute quelques considérations uniques :

Les pannes de cloud ont peu ou pas de visibilité sur les pannes, de sorte que les utilisateurs ne savent généralement pas ce qui s'est passé.
L'équipe du fournisseur est chargée de corriger l'erreur, afin que les clients ne participent pas au processus de récupération.
Comme vous n'avez aucune visibilité ni aucun contrôle sur le problème, il n'y a aucun moyen de savoir quand les services seront de nouveau en ligne.

Comme pour le matériel local, il existe deux types de pannes :

Planifié (se produit généralement en raison d'une maintenance planifiée).
Non planifié (se produit lorsque le fournisseur rencontre une erreur inattendue et doit effectuer des mesures de restauration).

Des études récentes révèlent que les interruptions non planifiées coûtent 35 % de plus que les interruptions planifiées (à la fois sur site et dans le cloud). La différence de prix existe parce que les incidents inattendus prennent plus de temps à identifier et à réparer, et plus une panne dure longtemps, plus les dégâts sont importants.

Par rapport au matériel sur site, l'infrastructure basée sur le cloud entraîne des temps d'arrêt plus fréquents mais avec moins de gravité . Étant donné qu'aucun système d'hébergement ne fournit une disponibilité à 100 %, les clients sont prêts à tolérer des pannes occasionnelles en échange des avantages du cloud computing. Cette volonté se manifeste également dans la croissance du marché :le cloud représentera 14,2 % des dépenses informatiques mondiales totales en 2024 (contre 9,1 % en 2020).

Causes de la panne du cloud

Les pannes de cloud résultent d'un certain nombre de causes à la fois sous et hors du contrôle du fournisseur. Voici une liste des plus courantes :

Panne de courant : Les problèmes liés à l'alimentation sont à l'origine de 43 % de toutes les pannes de cloud, avec des temps d'arrêt et des pertes financières importants. Les pannes d'alimentation sans coupure (UPS) sont la première cause d'incidents électriques.
Cybersécurité : Les cyberattaques telles que le déni de service distribué (DDoS) surchargent les centres de données avec le trafic entrant. Dans ce cas, les utilisateurs finaux ne peuvent pas accéder au service via la même infrastructure réseau. D'autres menaces (telles que les rançongiciels ou une injection SQL) peuvent obliger le fournisseur à fermer les services et à résoudre le problème hors ligne.
Erreur humaine : Une seule commande incorrecte ou une erreur de câblage peut entraîner l'arrêt de toute l'infrastructure informatique. Les erreurs humaines entraînent des problèmes physiques et logiciels qui entraînent des pannes.
Problèmes techniques : Les services cloud s'appuient sur un système complexe de technologie matérielle. Par conséquent, une erreur qui parvient à rester sous le radar assez longtemps peut entraîner une panne du cloud.
Bogues logiciels : Les problèmes et les bogues sont courants dans les centres de données cloud. Les coupables habituels derrière les problèmes sont les bogues de format de données, les bogues liés aux pannes, les bogues de synchronisation et les bogues de valeur constante.
Problèmes de mise en réseau : Les problèmes liés à la communication réseau et aux partenaires de télécommunications tiers sont une autre cause fréquente de pannes du cloud.
Entretien : La maintenance planifiée et les mises à niveau du système entraînent parfois une panne, bien que les utilisateurs finaux soient généralement informés de ces événements à l'avance.
Causes environnementales : Des événements tels que des ouragans, des incendies, des orages et des tremblements de terre déclenchent également une interruption du cloud, soit en mettant l'installation en danger, soit en endommageant le réseau électrique de la région.
Déploiements plus complexes : Des modèles de déploiement plus complexes (tels que hybrides, distribués et multicloud) compliquent les opérations du centre de données, créant davantage de possibilités d'erreurs.

Que se passe-t-il lorsque le nuage disparaît ?

Dans le meilleur des cas, une panne de cloud ne dure que quelques minutes et affecte un petit nombre d'utilisateurs ou de services. Dans le pire des cas, une panne paralyse l'activité d'un client pendant une demi-journée ou plus. Une entreprise perd l'accès à tous les actifs basés sur le cloud et reste coupée jusqu'à la fin de la panne.

Bien qu'elles soient menaçantes, les erreurs des fournisseurs tiers ont été à l'origine de "seulement" 7 % des pannes graves en 2021 . Une panne grave doit impliquer un (ou plusieurs) des éléments suivants :

Pertes financières importantes.
Atteinte à la réputation.
Non-respect de la conformité.
Perte de vie.

Bien qu'il existe des préoccupations plus urgentes (comme indiqué dans le tableau ci-dessous), n'oubliez pas qu'une minute moyenne d'indisponibilité coûte 5 600 $ (ce chiffre par minute passe à 9 000 $ pour les entreprises). Si vous n'êtes pas préparé (c'est-à-dire que vous n'avez pas de sauvegardes de données, de récupération après sinistre, etc.), une panne de cloud pourrait interrompre votre service et entraîner des conséquences massives sur les résultats.

Une entreprise qui conserve un petit segment de ses opérations dans le cloud est moins vulnérable aux pannes. Par exemple, si vous hébergez uniquement des e-mails dans le cloud, même une panne d'une journée n'est pas catastrophique. Vous pouvez attendre la fin de l'incident ou exécuter des applications avec des fonctionnalités réduites, une stratégie qui ne fonctionne pas si vous utilisez le cloud pour exécuter une plate-forme IoT ou effectuer le traitement des paiements.

Dans certains cas, une panne du cloud entraîne une perte permanente de données (la quantité de données perdues dépend de la fréquence des sauvegardes). En outre, les clients des secteurs stricts sont passibles d'amendes légales si une panne entraîne une violation ou une fuite de données. Soyez donc prudent lorsque vous décidez de ce que vous conservez dans le stockage cloud.

Que peuvent faire les utilisateurs ?

Voici ce que font les entreprises pour atténuer l'impact des pannes de cloud :

Supprimer les points de défaillance uniques : Préparez une sauvegarde de chaque composant informatique critique, soit dans une salle de serveurs sur site, soit chez un fournisseur secondaire. Si le cloud tombe en panne, vous effectuez un basculement (le processus de basculement vers un serveur de secours, un composant matériel, un réseau, etc.) pour assurer la continuité des activités.
Ayez un plan d'urgence : Un plan de reprise après sinistre décrit une stratégie étape par étape pour ce que l'équipe fait en cas de panne. Ce plan fournit des instructions pour protéger les données, effectuer un basculement, assurer la continuité des activités et restaurer les opérations. La planification en temps opportun d'une panne de cloud évite de perdre du temps à évaluer le meilleur plan d'action pendant les temps d'arrêt.
Investir dans un SLA de disponibilité supérieure : Si vos tâches critiques ne peuvent pas se permettre de longues pannes de cloud, recherchez un accord de niveau de service (SLA) à disponibilité plus élevée, tel que celui qui garantit une disponibilité de 99,999 % (maximum de 5,25 minutes d'indisponibilité par an). Ces contrats sont plus chers, mais le maintien de vos services en ligne devient une priorité majeure pour le fournisseur de cloud.
Effectuez des sauvegardes de données régulières : Une sauvegarde garantit que votre équipe dispose d'un moyen de restaurer une version récente des fichiers si une panne de cloud corrompt ou supprime une base de données. Idéalement, les sauvegardes devraient se produire automatiquement et n'importe où entre une fois par heure et une fois par jour (selon la criticité de la mission).
Détecter les pannes dès que possible : Toutes les fonctionnalités de surveillance cloud supplémentaires mises en place par votre équipe aident à identifier une panne en temps réel au lieu d'attendre la notification du fournisseur. Voici une liste des meilleurs outils de surveillance cloud pour améliorer la détection des temps d'arrêt et garantir un basculement rapide.

Pannes Cloud récentes les plus importantes

Les pannes de cloud sont inévitables lors de l'utilisation du cloud, et même les fournisseurs les plus populaires (comme Azure, AWS et Google Cloud) ne sont pas à l'abri des temps d'arrêt. Examinons quelques-unes des pannes de cloud les plus importantes de l'histoire récente.

Panne Azure (octobre 2021)

En octobre 2021, Microsoft Azure a subi une interruption qui a interrompu les services de machines virtuelles pendant six heures . Pendant la durée de la panne, de nombreux utilisateurs n'ont pas pu déployer de nouvelles machines virtuelles ou mettre à jour des extensions. Les opérations de gestion de service de base (telles que le démarrage, la création et la suppression) ont également entraîné des erreurs.

La cause de la panne du cloud était l'incapacité des requêtes de machine virtuelle à récupérer les données de version requises d'un artefact. Un rapport post-récupération a révélé que l'erreur logicielle s'était produite lorsque Microsoft avait migré l'une de ses architectures de VM.

Panne Google Cloud (novembre 2021)

Google Cloud est tombé en panne pendant environ deux heures à la mi-novembre de l'année dernière, affectant notamment :

Home Depot.
Snapchat.
Etsy.
Discorde.
Spotify.

Les sites Web concernés affichaient des erreurs 404 lorsque les visiteurs tentaient d'y accéder. Google a signalé que la cause de la panne du cloud était un problème dans une configuration réseau responsable de l'équilibrage de charge.

Panne d'AWS (décembre 2021)

Une forte augmentation de l'activité de connexion a submergé les appareils réseau dans l'une des installations phares d'AWS, affectant divers sites Web et applications. Certaines des "victimes" les plus notables étaient :

Site Web d'Amazon.
Première vidéo.
Netflix.
IMDb.
PlayStation Network.

Le problème du centre de données a entraîné une latence importante au sein des réseaux AWS internes. Les applications des clients ont ressenti les effets d'entraînement, subissant des retards de trafic ou des arrêts complets pendant environ sept heures .

Deux pannes IBM ultérieures (janvier 2022)

Un problème avec l'infrastructure d'IBM a affecté les services cloud dans la région de Dallas pendant plus de cinq heures . L'équipe interne a résolu le problème, mais a accidentellement causé un problème supplémentaire d'une heure avec le cloud privé virtuel. Le problème secondaire a touché des utilisateurs du monde entier, notamment aux États-Unis, au Japon, au Canada et en Allemagne.

Panne AWS/Slack (février 2022)

Slack a subi une panne de ses ressources cloud AWS en février, ce qui a empêché l'utilisation normale de la plate-forme de communication pendant cinq heures . Plus de 11 000 utilisateurs signalés n'ont pas pu :

Envoyer ou recevoir des messages.
Télécharger des fichiers.
Rejoindre des chaînes.
Lancez l'application de bureau.

L'équipe de Slack n'a jamais partagé la raison de la panne du cloud et a demandé à tous les utilisateurs concernés de redémarrer l'application et de vider leur cache après la récupération.

Panne d'iCloud (mars 2022)

Quinze services Apple majeurs ont été interrompus pendant quatre heures en mars en raison d'une panne de cloud, notamment :

Magasin d'applications.
Apple Maps.
Apple TV

Les systèmes d'entreprise et de vente au détail d'Apple sont également tombés en panne. L'entreprise a révélé plus tard que la cause première était un problème lié au système de noms de domaine (DNS) de l'entreprise.

Panne de Google Cloud (mars 2022)

Le 8 mars 2022, les utilisateurs de Google Cloud ont subi des erreurs de service pendant deux heures et demie . Spotify et Discord faisaient partie des personnes touchées par la panne.

Une modification du code Traffic Director pour le traitement des configurations a provoqué l'erreur. Selon le rapport post-récupération, les changements de code incorrects ont négligé les migrations de format de données de configuration, de sorte que la plate-forme a supprimé par inadvertance la programmation de l'utilisateur.

Interruption d'Atlassian (avril 2022)

La plus grande panne d'Atlassian de l'année a commencé le 5 avril et s'est terminée le 18 avril (bien que certains utilisateurs aient commencé à restaurer les services le 8 avril). L'entreprise a expliqué que la panne s'était produite en raison d'une communication d'équipe inadéquate et d'un plan de réponse aux incidents mal planifié.

Bien que cette panne de cloud ait duré presque deux semaines pour certains utilisateurs, aucune perte importante de données client n'a été signalée. Cependant, les utilisateurs des deux produits phares d'Atlassian, Trello et Jira, ont été touchés par le problème.

Panne de Microsoft Azure (juin 2022)

Le 7 juin, les clients Azure ne pouvaient pas se connecter aux ressources hébergées dans la région East US 2 (principalement la Virginie). La panne a duré environ douze heures et n'a pas affecté les consommateurs qui dépendent d'une infrastructure redondante. Services compromis inclus :

Insights sur les applications.
Analyse des journaux.
Service d'identité gérée.
Services multimédias.
Fichiers NetApp.

Le coupable était une oscillation de puissance soudaine dans l'un des centres de données locaux, qui a provoqué l'arrêt des unités de traitement d'air (AHU).

Panne de Cloudflare (juin 2022)

En juin, une panne accidentelle chez Cloudflare a provoqué des perturbations majeures qui ont duré une heure et demie , supprimant des sites populaires tels que :

Discorde.
Shopify.
Fitbit.
Peloton.

Le fournisseur basé à San Francisco a expliqué que le temps d'arrêt imprévu résultait d'une modification de la configuration du réseau dans 19 de ses centres de données.

Ne négligez pas la valeur de la planification des pannes de cloud

Les exemples de pannes de cloud de ces dernières années envoient un message clair :même si le cloud change la donne informatique, la technologie n'est pas infaillible . Les entreprises qui se soucient des utilisateurs finaux et de la disponibilité des applications doivent être prêtes pour les temps d'arrêt occasionnels, ce qui fait de la sauvegarde et de la reprise après sinistre (BDR) une partie intégrante de l'utilisation des ressources basées sur le cloud.

Sécurité du stockage dans le cloud :dans quelle mesure le stockage dans le cloud est-il sécurisé ? Qu'est-ce que le rapatriement des données ?

Cloud computing

Embarqué

Capteur

Cloud computing

Technologie de l'Internet des objets