GESTION DU RISQUE EN SALLE INFORMATIQUE – IDENTIFIER LES SOURCES POTENTIELLES D’INCIDENT
En matière d’appréciation des risques pouvant survenir et perturber la production de la salle informatique, disposer d’une grille d’évaluation permet de déterminer les priorités de traitement des menaces, mais ne fournit pas de méthode particulière pour les répertorier en amont de l’évaluation. Typiquement, les sinistres particulièrement spectaculaires que sont les incendies de salles informatiques ou bien les séismes (pour les zones concernées) sont bien présents dans l’esprit des exploitants de salle et donnent par conséquent lieu, quasi-systématiquement, à des mesures de prévention et de protection. Cependant, il existe bien plus de pannes mécaniques de CTA, d’effondrements de faux-plancher à l’aplomb d’un rack surchargé ou d’extinctions accidentelles d’une source énergétique que d’incendies en salle informatique.
Il est extrêmement difficile de pallier préventivement à l’ensemble des cas de figure en toutes circonstances, et cette difficulté s’aggrave drastiquement si l’étape d’identification des risques potentiels est réalisée en l’absence d’une approche thématique. Une lacune d’identification de risques courants, peu spectaculaires mais d’impact réel, pose d’autant plus problème que le retour à la normale peut largement dépasser le simple cadre du traitement de la cause racine. Par exemple : une panne du dispositif de climatisation ayant occasionné le franchissement du seuil thermique d’arrêt d’urgence de certains équipements IT, qu’il convient à présent, la réparation terminée, de redémarrer dans l’ordre logique en contrôlant chacune des étapes de la remise en marche du système d’information, en relation avec les services front-line end-user dont le backlog s’est rapidement accru… . Garantir un taux très haut de disponibilité et de continuité des fonctions d’infrastructure bâtiment ne signifie nullement que ce taux sera strictement superposable à son équivalent côté services IT.
Plusieurs approches existent pour répertorier un maximum de menaces et décider lesquelles justifient un traitement préventif à court ou moyen terme, lesquelles peuvent se contenter d’une démarche réactive et lesquelles peuvent être tolérées, soit qu’elles se révèlent extrêmement improbables, soit que leur impact s’avère aussi mineur que leur prise en charge coûteuse. L’une d’entre elles consiste à envisager la source du risque : extérieure à l’organisation (catastrophe -incendie, inondation, séisme…-, conflit armé, mais aussi et surtout : défaillance d’un fournisseur d’énergie, pollution chimique de l’air par un acteur industriel ou les transports urbains, disparition d’un prestataire stratégique pour la maintenance de la salle, dénonciation par l’assureur du contrat couvrant la salle -ce qui augmente mécaniquement la gravité de certains autres risques…) ; intérieure à l’organisation (acte de malveillance, négligence, panne d’un TGBT, panne d’un onduleur, défaillance du PC sécurité, équipements générateurs de pollution électromagnétique à proximité de la salle…) ; et enfin, inhérente au fonctionnement de la salle elle-même : ici, il est pratique d’opérer une distinction entre les erreurs de design (ex : localisation impropre des dispositifs d’arrêt d’urgence, actionnés par erreur), celles liées à l’implémentation (ex : réseau de masse inefficace) et les pannes qui peuvent survenir au niveau de multiples composants.