Point de défaillance unique | Un aperçu simple

Dans le domaine des technologies de l'information, la conception de systèmes implique le processus de détermination de l'architecture, des interfaces, des modules et des données pour qu'un système réponde à certaines exigences. Il s'agit d'un processus crucial pour améliorer l'efficacité du développement de produits/services et offrir une expérience utilisateur exceptionnelle.

Disons que vous avez une application qui sert des millions d'utilisateurs chaque jour. Côté serveur, vous devez disposer d'une excellente ingénierie pour gérer un si grand volume de requêtes. Les requêtes du serveur ne doivent jamais échouer, même s'il y a un problème avec la base de données ou une panne matérielle.

Cependant, si le backend ou le frontend n'est pas conçu correctement, une simple erreur peut fermer l'ensemble de l'application, du serveur au réseau informatique. L'une des principales sources de telles erreurs est le point de défaillance unique (SPOF).

Dans cet article de présentation, nous avons expliqué pourquoi SPOF est le pire problème pour les professionnels de l'informatique, sa source commune et comment atténuer de telles défaillances. Commençons par une question de base.

Qu'est-ce qu'un point de défaillance unique ?

Définition : Un point de défaillance unique est une partie d'un système qui provoque l'arrêt de l'ensemble du système en cas de défaillance. En termes simples, si une chose tombe en panne, tout tombe en panne.

Les SPOF surviennent en raison de conceptions défectueuses et de mauvaises techniques de mise en œuvre. Ils sont indésirables dans n'importe quel système, qu'il s'agisse d'une application logicielle, d'un module matériel, d'un système de fabrication ou d'une pratique commerciale.

Par exemple, si vous exécutez un site Web hébergé sur un seul serveur à un emplacement particulier, ce serveur serait un point de défaillance unique. Si le serveur tombe en panne, les visiteurs ne pourront pas accéder au site Web. Ce point unique peut mettre un terme à toute activité liée à votre site Web. Si un tel risque existe dans votre entreprise, vous devez prendre des mesures pour atténuer ce risque.

Quelle est la solution ?

Le moyen le plus efficace de réduire le risque potentiel de SPOF est d'ajouter de la redondance. Cela implique l'installation de composants matériels et d'applications logicielles redondants.

Par exemple, on pourrait utiliser des matrices redondantes de disques indépendants (RAID) pour stocker des bases de données Directory Server, ou déployer plusieurs instances en double de Directory Servers sur différents hôtes.

La redondance peut être ajoutée à différents niveaux. Prenons l'exemple d'un chauffeur de taxi indépendant. A bas niveau, il peut disposer d'outils et de pièces détachées pour réparer le véhicule, en cas de panne. Au niveau moyen, il peut emprunter le taxi de son ami pour faire le travail. Au plus haut niveau, il peut avoir une autre voiture et suffisamment de composants pour remplacer complètement les pièces défectueuses en cas de pannes multiples.

Voyons maintenant l'exemple simple de la redondance en informatique.

1.) Dans une configuration simple, il pourrait y avoir plusieurs points de défaillance uniques possibles.

Figure 1

2.) Certains points de défaillance uniques peuvent être évités en ajoutant des composants matériels en double.

Figure 2

3). Zéro SPOF peut être atteint en construisant un système entièrement redondant, bien que cette configuration soit beaucoup plus chère que la configuration simple illustrée à la figure 1.

Figure 3 | Zéro SPOF

Au niveau du système, un équilibreur de charge peut être déployé pour assurer la haute disponibilité d'un cluster de serveurs. Dans ce cas, chaque serveur peut avoir plusieurs disques durs, blocs d'alimentation et autres modules. Un niveau de redondance plus élevé peut être atteint en ajoutant des serveurs supplémentaires qui pourraient prendre en charge une charge de serveurs actifs en cas de défaillance.

Le centre de données lui-même prend en charge de nombreuses opérations telles que la logique métier. Par conséquent, c'est en soi un SPOF potentiel pour l'entreprise, si ses fonctionnalités ne peuvent pas être reproduites ailleurs.

Au niveau du site (le plus élevé), l'ensemble du centre de données peut être répliqué dans différents paramètres et accessible lorsque le serveur principal ne répond plus. Ce type de redondance est généralement au centre d'un programme de résilience ou de reprise après sinistre informatique.

Afin de ne pas avoir de SPOF, les grands réseaux, y compris Internet et ARPANET, utilisent la commutation par paquets, une technique de routage et de transfert de données sur un réseau numérique en paquets. Il utilise les chemins multiples entre deux hôtes sur les réseaux et utilise de manière optimale la capacité du canal.

Lire : 10 organisations qui contrôlent Internet

Lorsqu'il y a un défaut dans un nœud entre les deux hôtes, les données sont transférées via un nœud alternatif. La commutation de paquets minimise également la latence de transmission et augmente la robustesse de la communication.

Il existe trois protocoles réseau largement utilisés pour éviter le point de défaillance unique :

Système intermédiaire à système intermédiaire déplace efficacement les informations au sein d'un réseau informatique en déterminant le meilleur itinéraire pour les données.
Ouvrir le chemin le plus court en premier distribue les informations de routage entre les routeurs appartenant à un même système autonome. Il utilise le premier algorithme du chemin le plus court (algorithme de Dijkstra) pour transmettre les données.
Pont sur le chemin le plus court simplifie le développement et la configuration d'un réseau tout en permettant le routage multivoies.

Évaluer le SPOF

Les trois endroits communs où SPOF a tendance à apparaître sont le matériel, les logiciels et les services/fournisseurs tiers. Les humains sont également un point de défaillance unique dans la plupart des organisations, mais ils sont souvent négligés. Les membres d'une entreprise peuvent être des SPOF pour plusieurs raisons, telles que des erreurs, la fraude, la malhonnêteté, le manque de connaissances et une expérience limitée.

Une fois que vous avez détecté le SPOF, l'étape suivante consiste à le classer en fonction de sa difficulté à le réparer. Il pourrait y avoir trois catégories :

Facile : Peut être réparé dans un délai et un coût raisonnables.
Modéré : Ne peut pas être corrigé directement ; cependant, une solution de contournement fiable pourrait être développée.
Difficile : Le défaut est délicat et très coûteux à corriger.

En plus de cela, les SPOF peuvent être classés en termes de probabilité d'occurrence (risque faible, moyen et élevé) et de leur impact sur l'entreprise (impact faible, moyen et élevé).

Prévention des points de défaillance uniques

Étant donné que de nombreux processus critiques dépendent de la connectivité réseau, les pannes de centre de données ne peuvent pas être simplement tolérées. Pourtant, plus de 30 % de tous les centres de données subissent une panne chaque année. Environ 34 % des entreprises déclarent qu'une heure d'arrêt coûte plus d'un million de dollars.

Indépendamment des pertes qui se sont produites en raison des temps d'arrêt du centre de données, la réalité est que jusqu'à 80 % des pannes sont évitables. Bien que n'importe quel outil du réseau puisse constituer un danger SPOF, la plupart des pannes sont causées par des logiciels malveillants et d'autres cybermenaces.

Lire : 13 types différents de virus informatiques

Les outils modernes de protection contre les menaces, y compris les équilibreurs de charge, les systèmes de prévention des intrusions, les pare-feu d'applications Web et les solutions avancées de protection contre les menaces, sont toujours à risque en cas de panne de courant ou de défaillance du contrôleur d'interface réseau, ou lorsqu'ils filtrent le trafic Internet.

Ces outils sont vulnérables à la fois aux menaces ordinaires telles que les attaques par force brute et aux menaces complexes telles que la mise en œuvre d'entités externes XML ou la falsification de requêtes intersites. Comme ils ne peuvent pas protéger le réseau à tout moment, il est nécessaire de prendre des mesures de sécurité redondantes.

Il existe plusieurs méthodes pour mettre en œuvre une architecture de pare-feu d'application Web qui minimise l'efficacité et la fréquence d'un large éventail d'attaques. Les pare-feu d'applications Web à plusieurs niveaux, par exemple, séparent les différents modules d'application en fonction de leurs opérations en plusieurs niveaux.

Étant donné que chaque niveau s'exécute sur un système individuel, il n'y a pas de SPOF. De la même manière, la mise en œuvre correcte de plusieurs équilibreurs de charge peut réduire le point de défaillance unique au sein d'un réseau.

Ne mettez pas tous vos œufs dans le même panier

Bien que de nombreuses entreprises fournissent leur propre version des sauvegardes cloud, il n'est pas conseillé de se fier uniquement à une sauvegarde pour protéger les données de votre entreprise. Même les services cloud de géants de la technologie comme Amazon, Microsoft et Google échouent plusieurs fois par an.

Lire : 25 plus grandes inventions en informatique

Si vous dirigez une entreprise, vous devez prendre en compte tous les scénarios probables lors de la création d'une redondance. Ne présumez pas que n'importe qui peut fournir une disponibilité à 100 % et soyez toujours prêt avec le plan B si les choses tournent mal.

Études approfondies

SPOF dans les systèmes de systèmes

Des chercheurs de l'Université John Moores de Liverpool, au Royaume-Uni, mettent en évidence les principaux défis rencontrés lors de l'intégration de systèmes individuels pour former de grands systèmes de systèmes hétérogènes complexes.

De nombreuses approches modernes ont tendance à se concentrer sur une petite zone vulnérable spécifique. Certains d'entre eux sont très théoriques ou non évolutifs en raison d'un grand nombre de composants collaboratifs. L'étude décrit comment un point de défaillance unique peut avoir un impact considérable sur les systèmes de collaboration et entraîner des pertes financières importantes pour les entreprises.

Élimination du SPOF dans la redondance logicielle

La redondance logicielle est généralement considérée comme un moyen efficace et peu coûteux d'améliorer la fiabilité. L'exécution redondante en termes de triple redondance modulaire (TMR) est assez populaire, mais elle laisse des SPOF non protégés.

Cette recherche présente une approche holistique, nommée Combined Redundancy, qui renforce les composants critiques pour la sécurité d'un système contre les efforts légers, tout en éliminant la vulnérabilité causée par les SPOF. Il exploite une exécution redondante ainsi qu'un traitement codé et peut être facilement intégré dans des projets existants.

Lire : 9 types de tests d'intrusion différents

Minimiser les SPOF dans le routage d'arborescence

Tree Routing (TR) utilise des liens parent-enfant pour transmettre des paquets. Ces liens nécessitent plus de sauts lorsque les nœuds source et destination appartiennent à des branches d'arbre différentes. Les nœuds plus proches du coordinateur peuvent transmettre plus de paquets, ce qui entraîne une consommation d'énergie plus élevée et plus de congestion. Cela pourrait créer un problème SPOF.

Une équipe de chercheurs de l'Université nationale des sciences appliquées de Kaohsiung, à Taïwan, a développé un algorithme de routage d'arbre SPOF de soulagement pour transmettre les paquets via le chemin le plus court et éviter la congestion. L'algorithme diminue le nombre moyen de sauts, minimise le délai de bout en bout, augmente le débit et prolonge la durée de vie des nœuds de l'arbre.

5 types de centres de données différents [avec exemples] 8 types de technologies différents en 2021 [avec exemples]

Technologie industrielle

Processus de fabrication

impression en 3D

Système de contrôle d'automatisation

Technologie industrielle