L'exploitation des centres de données entre dans une ère d'intelligence unifiée à tous les niveaux de l'infrastructure. La densité des racks dépasse les 140 kilowatts (kW) et les charges de travail atteignent des limites thermiques et énergétiques considérables, dépassant les capacités des conceptions traditionnelles. Face à la complexité et à l'interconnexion croissantes des infrastructures, les conséquences des pannes opérationnelles sont plus graves que jamais.
Selon l'étude mondiale 2025 de l'Uptime Institute sur les centres de données, une panne majeure sur cinq coûte désormais aux opérateurs plus d'un million de dollars, et même les incidents mineurs deviennent de plus en plus onéreux (voir figure 1). La pénurie persistante de personnel qualifié accentue la difficulté de gérer les systèmes de refroidissement avancés, les racks haute densité et les systèmes d'alimentation complexes.

Figure 1. Graphique illustrant le coût total estimé des incidents de disponibilité, de la perturbation à la restauration complète, incluant les coûts directs, les coûts d'opportunité et les atteintes à la réputation, d'après une enquête menée par l'Uptime Institute. Source : Uptime Institute
Pour rester compétitifs, les opérateurs intègrent davantage d'intelligence et de coordination dans la gestion des infrastructures de centres de données, en reliant l'alimentation, le refroidissement et le calcul grâce à des systèmes intégrés qui s'adaptent en temps réel. Ils passent d'une surveillance et d'un contrôle cloisonnés à une convergence IT/OT afin de répondre aux besoins tout en améliorant l'efficacité énergétique des centres de données.
Comparaison entre les technologies de l'information (TI) et les technologies opérationnelles (TO
) : Technologies de l'information (TI) : Systèmes qui traitent, stockent et transmettent des données numériques, tels que les serveurs, les réseaux et les logiciels d'entreprise.
Technologies opérationnelles (TO) : Systèmes qui surveillent et contrôlent l'infrastructure physique, comme les unités de distribution électrique, les équipements frigorifiques et les systèmes de gestion technique du bâtiment.
Qu'est-ce que la convergence TI/TO ?
La convergence TI/TO désigne l'intégration des systèmes numériques et physiques dans un modèle opérationnel unifié (voir figure 2). Selon l'International Society of Automation (ISA), cette technologie permet aux organisations d'unifier les modèles de données et les systèmes de contrôle dans tous leurs environnements. La convergence TI/TO vise à améliorer la visibilité, l'automatisation et la prise de décision en favorisant la collaboration entre des fonctions auparavant cloisonnées.

Figure 2. Exemple de convergence IT/OT dans l'exploitation des centres de données, illustrant le lien entre la salle de contrôle du centre de données et l'infrastructure informatique avancée. Source : Vertiv
Cas d'usage de la convergence IT/OT :
Conformément à sa définition, l'intégration des opérations transforme déjà en profondeur le fonctionnement des centres de données. En connectant les systèmes de refroidissement, d'alimentation et informatiques via des plateformes unifiées, les opérateurs bénéficient d'une visibilité accrue. Ceci permet une réactivité en temps réel et une gestion plus écoénergétique des infrastructures. 1. Refroidissement des centres de données piloté par l'IA :
Google a développé un système de contrôle basé sur l'IA qui relie les données de charge de travail informatique à l'infrastructure de refroidissement opérationnelle. Toutes les cinq minutes, les données de milliers de capteurs sont envoyées à une IA hébergée dans le cloud, qui calcule les paramètres de refroidissement optimaux.
Ces paramètres sont vérifiés par rapport aux limites de sécurité, notamment les seuils de température et d'humidité, ainsi que les plages de fonctionnement des équipements, avant d'être mis en œuvre par les systèmes de contrôle locaux. Si une action générée par l'IA contrevient à ces protocoles de sécurité, le système de contrôle la rejette, applique des valeurs de refroidissement de référence prudentes et alerte les opérateurs. Cette configuration en boucle fermée avec redondance intégrée permet des ajustements de refroidissement en temps réel en fonction des charges informatiques actives, réduisant ainsi la consommation d'énergie de refroidissement de 30 % en moyenne sur plusieurs sites. Le refroidissement représentant généralement 30 à 40 % de la consommation énergétique totale d'un centre de données, cette solution permet de réaliser des économies d'exploitation substantielles. 2. Gestion intégrée des systèmes d'alimentation et de refroidissement : les
données de télémétrie des onduleurs (UPS), des unités de distribution d'énergie (PDU) et des systèmes de refroidissement sont agrégées et standardisées à l'aide de protocoles de communication ouverts tels que Modbus et SNMP (Simple Network Management Protocol). Les opérateurs peuvent ainsi surveiller et contrôler ces systèmes via une interface unique, et obtenir en temps réel des informations sur la consommation d'énergie, l'état des équipements et les conditions environnementales (voir la vidéo 1).
Vidéo 1. Par exemple, Vertiv™ Unify, une plateforme d'automatisation décentralisée, standardise les processus sur tous les sites, permettant aux opérateurs de centres de données d'adapter leurs opérations tout en maintenant des performances et une fiabilité constantes.
3. Observabilité unifiée des systèmes informatiques et des infrastructures :
Equinix a combiné les données réseau, applicatives, d'alimentation et environnementales dans une couche d'observabilité unifiée. Les API et les intégrations avec les plateformes de gestion des actifs et DCIM consolident la télémétrie des systèmes numériques et physiques.
Les opérateurs peuvent consulter ces données via des tableaux de bord centralisés ou des outils tiers, ce qui accélère l'identification des problèmes interdomaines, comme une panne de refroidissement impactant les performances du réseau.
4. Maintenance conditionnelle des infrastructures critiques :
Vertiv tire parti de la convergence IT/OT pour prendre en charge la maintenance conditionnelle et la surveillance avancée. Les plateformes cloud analysent la télémétrie continue des systèmes des infrastructures et des charges de travail informatiques afin de générer des scores de santé et d'identifier les écarts de performance.
Le personnel du centre utilise ces données de santé pour évaluer l'état des actifs et concentrer la maintenance planifiée sur les composants présentant des anomalies détectées, optimisant ainsi la valeur de chaque intervention (voir Figure 3). Les opérateurs utilisent également des données de performance historiques pour évaluer les tendances du cycle de vie et orienter la planification future des capacités.
La figure 3 illustre l'évolution de la maintenance : les changements et la combinaison de pratiques traditionnelles, à la fois dépassées et innovantes, permettent aux entreprises de créer un modèle de maintenance qui optimise la disponibilité, l'efficacité et la durée de vie de leurs actifs.
Pourquoi la convergence IT/OT est-elle devenue une infrastructure essentielle ?
Face à l'expansion des infrastructures et à l'intensification des contraintes opérationnelles, la séparation des technologies IT et OT en silos crée des angles morts et des inefficacités qui ne répondent plus aux exigences de rapidité et de précision des environnements actuels. Leur convergence permet :
• Une visibilité unifiée : La visualisation conjointe des données relatives à l'alimentation, au refroidissement et aux technologies de l'information permet de détecter plus rapidement les problèmes et d'en identifier les causes profondes.
• Des décisions plus rapides : Les informations en temps réel issues des couches physiques et numériques accélèrent le dépannage et la planification.
• Une fiabilité prédictive : La détection précoce des anomalies réduit les temps d'arrêt et prolonge la durée de vie des équipements.
• Des opérations évolutives : La standardisation des processus améliore la probabilité d'obtenir des résultats cohérents sur plusieurs sites.
• Une efficacité énergétique accrue : La gestion coordonnée de la charge et du refroidissement réduit la consommation d'énergie tout en maintenant les performances opérationnelles dans les limites de conception.
Article fourni par Vertiv – http://www.vertiv.com
