Le mythe de l’erreur humaine – I

La cause des sinistres informatiques constitue un phénomène récurrent en dépit des investissements consentis pour leur prévention. Elle fait ainsi régulièrement l’objet de classifications contextualisées. Parmi les origines possibles de ces désastres, on cite (bien trop) souvent l’erreur humaine en salle informatique. Comme si, malgré les mesures concédées dans l’amélioration de la résistance des systèmes aux pannes, le facteur humain -autrement dit : la sagacité, la compétence, la concentration et la rigueur de celui qui réalise l’action de terrain- demeurait l’ultime élément erratique et in fine, incontrôlable, qui peut tout faire échouer. Jusqu’à prôner l’automatisation complète. Qui ne résoudra pourtant pas le problème de fond.

Car un peu d’expérience-terrain suffit pour réaliser bien vite que cet argument facile masque des lacunes bien plus profondes. Bien plus complexes et bien plus inquiétantes, également. Qu’il convient donc d’étudier ces manquements pour extirper leur cause première, souvent d’ordre managérial et stratégique. Cette série de billets “Le mythe de l’erreur humaine” se propose de répertorier les principales sources d’incidents majeurs pour lesquelles lesdites “erreurs humaines” des exploitants, techniciens et autres administrateurs servent d’alibi et entravent l’amélioration continue. L’auteur de cet article, et de ceux qui suivront, a personnellement rencontré tous les cas de figure mentionnés. Tout comme, nous en sommes certains, bon nombre d’entre vous.

Absence d’une pratique de contrôle des changements

L’organisation autorise l’exécution de modifications sans validation des parties prenantes ni évaluation des risques ou des impacts. Par exemple : un ré-agencement des espaces de confinement opéré à l’initiative d’un exploitant IT et qui débouche sur l’apparition de points chauds. Ou bien un ajustement du câblage par un administrateur système, provoquant l’apparition d’une congestion du réseau. Ce cas de figure s’avère assez typique des sauts de croissance organique qui impliquent plus de coordination et une meilleure communication interne.

Contrôle d’accès inefficace

Un changement non autorisé se produit car l’intervenant opiniâtre contourne aisément le dispositif de contrôle d’accès. Bien qu’il soit, en première instance, refoulé par les organes de sécurité du bâtiment, il parvient finalement à y pénétrer. Typiquement, l’intermédiation d’un technicien habilité déjà présent sur site permet souvent d’outrepasser les organes de contrôle. Dès lors, le changement prévu par l’intervenant, mais pas par l’organisation, peut se produire. La persévérance de l’intervenant bien intentionné débouche alors sur l’ « erreur humaine » en cas de dégât collatéral.

Contrôle d’accès inefficient

Un dispositif de contrôle d’accès dysfonctionnel retarde un changement important, dûment validé et planifié. Exemple représentatif et récurrent : le cas d’un transfert de salle informatique ajourné de plusieurs heures car le Prestataire de relocalisation n’est pas correctement accueilli par le PC sécurité du site cible, lui-même surpris par la livraison massive d’actifs IT et le nombre inhabituel de camions en attente sur le quai de chargement. Quelque chose n’a visiblement pas fonctionné dans la chaîne de communication du projet de transfert… La perte de temps subie, ponctuée des âpres négociations nocturnes d’usage, accroît la fatigue et la pression exercée sur les équipes opérationnelles et augmente le risque d’erreur lors de la reconnexion du système informatique.

Documentation lacunaire (absence d’une pratique de gestion de la connaissance)

Les documents d’infrastructure, d’architecture ou d’exploitation, inexistants ou incomplets, ne permettent pas le partage de la connaissance au sein des équipes. Les procédures cruciales n’existent que dans la mémoire des gestionnaires habituels, avares de leur expérience. L’indifférence du management pour ces considérations d’intendance valide implicitement la rétention d’information. En l’absence des sachants (en congés, indisposés par le COVID-19 ou récemment recrutés par la concurrence), les techniciens Bâtiment ou IT doivent alors décider puis procéder par déduction, tâtonnement ou supposition. L’efficacité de la gestion des systèmes complexes s’en trouve amoindrie, voire compromise. Éventuellement jusqu’au sinistre causé par… l’ « erreur humaine », bien entendu !

Gestion déficiente des ressources humaines

Ici, l’organisation en charge de la salle informatique fait preuve de légèreté dans son processus de recrutement. Ou bien ne se préoccupe pas de la formation continue de ses salariés. La valeur apportée par l’exploitant est exclusivement perçue sous l’angle logistique. Ceci, au détriment de la technicité et de la planification opérationnelle qu’implique cette profession. Le taux de rotation dans les équipes s’avère alors trop important pour permettre l’acquisition d’une expérience propre à l’environnement de l’organisation. Les rares éléments qui restent deviennent autodidactes. Chaque changement complexe ou réalisé sous pression opérationnelle devient risqué, et son résultat peu prédictible.

Signalétique défectueuse

Les éléments de la salle informatique sont incorrectement/incomplètement identifiés ou étiquetés. Avec le temps, la salle informatique ressemble à un empilement de couches géologiques avec ses serveurs fossiles -dont plus personne ne se rappelle la raison d’être- et ses zones de discordance, entre les anciennes et les nouvelles urbanisations, initialement mieux loties mais peu maintenues. Face à cette situation inextricable et à la nécessité de la continuité de la production, la DSI a baissé les bras. Les changements, lorsqu’ils ne sont pas erronés, sont ainsi drastiquement retardés et complexifiés. Le contexte résultant de cette absence de signalétique s’avère évidemment propice aux apparitions de changements non sollicités. Pour la plus grande joie des utilisateurs régulièrement déconnectés de leur application préférée.

A suivre…

Pour se former :

cellaconsilium-logo