Des problèmes d’alimentation en carburant des générateurs aux défaillances des systèmes mécaniques et électriques en raison du froid extrême, la semaine a été une véritable catastrophe.
Les plus grandes entreprises qui exploitent des centres de données au Texas semblent avoir surmonté la vague de froid extrême et prolongée du mois dernier – et le chaos électrique qui s’en est suivi dans tout l’État – sans subir de pannes majeures. Certains centres de données de l’État sont tombés en panne, selon des reportages locaux et des avis publics d’organisations dont les services ont été interrompus à cause des pannes.
Les installations et les processus d’exploitation des centres de données sont conçus pour éviter les pannes en cas de défaillance des services publics d’électricité et, dans l’ensemble, il semble que la plupart d’entre eux aient fonctionné comme prévu au cours de la troisième semaine de février, après que les températures aient chuté, mettant hors service une grande partie de la capacité de production du réseau de l’État et faisant chuter sa fréquence de fonctionnement. Bill Magness, PDG de l’Electric Reliability Council of Texas (l’opérateur du réseau), qui a été licencié la semaine dernière, a déclaré qu’à un moment donné, la fréquence était si basse qu’il semblait que le réseau était à quelques minutes d’une défaillance complète, sauvée uniquement par la réduction de la charge obtenue par les fournisseurs d’énergie grâce aux coupures ordonnées par l’ERCOT.
Tout ne s’est pas passé sans heurts pour les opérateurs de centres de données du Texas. Il faisait plus froid que jamais, et la quantité de capacité de production qui a été mise hors service – environ la moitié – était sans précédent.
Des sources locales ont indiqué à DCK que certains opérateurs de centres de données ont eu des problèmes avec les systèmes de basculement électrique et les systèmes de refroidissement qui ne se sont pas comportés comme prévu parce que (comme l’infrastructure électrique de l’État) ils n’étaient pas suffisamment « hivernisés » ou conçus pour fonctionner à des températures aussi basses. De nombreux opérateurs ont eu du mal à obtenir des livraisons de carburant pour générateurs en temps voulu afin de remplir leurs réservoirs au cas où les coupures de courant dureraient plus longtemps que leurs réserves de carburant sur site.
Préoccupation principale : Le carburant des générateurs
Tous les centres de données de l’État ne sont pas privés d’électricité, mais si vous en exploitez un et que vous souhaitez faire livrer du diesel sur votre site, vous avez peu de chances de l’obtenir depuis les frontières de l’État. Pour obtenir une livraison de carburant en temps voulu, il fallait des moyens financiers importants, des relations étroites (de préférence avec des fournisseurs de carburant d’envergure nationale) et une certaine créativité.
Il n’y avait pas de pénurie de diesel dans l’État – qui compte bien plus de raffineries de pétrole au mètre carré que n’importe quel autre État – mais le sortir du stockage et l’acheminer là où il était nécessaire était une autre affaire. Même les relais routiers du Texas, où les camions de livraison font le plein pour leurs propres moteurs, étaient pour la plupart hors service, soit parce qu’ils étaient à court de carburant et ne pouvaient pas s’en faire livrer, soit parce qu’ils avaient perdu l’électricité et ne pouvaient pas faire fonctionner leurs pompes.
Une personne travaillant pour un opérateur de centre de données dans l’État, qui a parlé à DCK sous couvert d’anonymat, a déclaré que l’opérateur, dont la capacité totale du centre de données au Texas a fonctionné entièrement sur des générateurs pendant deux jours au cours de cette semaine, a dit qu’il n’y avait pas de carburant disponible auprès des sources habituelles et que les fournisseurs qui pouvaient s’en procurer ne garantissaient pas une livraison dans les délais. L’opérateur a finalement réussi à se procurer du carburant auprès d’un fournisseur hors de l’État.
Si un opérateur de centre de données contactait son fournisseur de carburant habituel dans l’État pendant cette semaine, « on lui disait soit que cela allait prendre plus de temps et qu’il pouvait attendre, soit qu’il n’avait aucun moyen d’arriver jusqu’à lui », a déclaré à DCK Scott Fisher, vice-président de la politique et des affaires publiques de la Texas Food & Fuel Association. Dans de nombreuses régions de l’État, les routes étaient si verglacées que pas un seul camion n’a circulé pendant des jours, a-t-il ajouté.
« Croyez-le ou non, tout le Texas a été touché par cette tempête hivernale », a déclaré M. Fisher. « Chaque comté a été touché, soit par la neige et le verglas, soit par des températures hivernales bien inférieures à la normale, jusque dans la vallée du Rio Grande, qui est subtropicale. Les températures descendent rarement jusqu’à 20 degrés (Fahrenheit), sans parler de 40 degrés. Tout ce que vous pouvez imaginer qui peut geler dans ce genre de situation l’a fait. »
Cela affecterait l’Internet, point final ».
Akamai Technologies, qui exploite l’un des plus grands réseaux de diffusion de contenu au monde, conserve la majeure partie de sa capacité informatique dans la région dans six centres de données situés dans la zone métropolitaine de Dallas-Fort Worth. Aucun de ces centres ne préoccupe Todd Lawrence, vice-président de l’infrastructure américaine de la société, autant que le bâtiment situé dans la zone où le réseau local d’Akamai s’interconnecte avec le reste d’Internet : Infomart, propriété d’Equinix, situé au 1950 N. Stemmons Freeway à Dallas.
» C’était la préoccupation numéro un « , a déclaré Lawrence à DCK. « Pour moi, il ne s’agissait pas des serveurs [dans les six autres centres de données de la région], mais des routeurs [d’Infomart] qui tombaient en panne, et cela aurait été un vrai problème. »
C’était inquiétant, car Infomart était passé aux générateurs, mais l’équipe locale d’Akamai ne recevait pas d’Equinix d’informations solides sur la date des livraisons de carburant. (L’équipe avait créé une feuille de calcul pour suivre l’état du carburant et l’accès du personnel sur chacun de ses sites texans au milieu de tout ce chaos).
« Pendant cette crise très dynamique, Equinix a fourni des estimations régulières, transparentes et prudentes des niveaux de carburant par générateur à tous les clients des centres de données qui étaient passés à l’alimentation par générateur », a écrit David Fonkalsrud, porte-parole d’Equinix, dans un courriel adressé à DCK. « Ces communications incluaient les informations confirmées dont nous disposions à ce moment-là ».
Infomart n’a pas connu de panne et le bâtiment a finalement été remis sous tension.
À la question de savoir quel serait l’impact d’une panne d’Infomart, Lawrence a répondu : « Cela affecterait l’Internet, point final. La majeure partie de la connectivité passe par ce bâtiment. Je pense qu’il y aurait une perturbation assez importante. C’est probablement ce que nous avons vu de plus près. »
Un convoi de camions
Digital Realty Trust, qui exploite 13 centres de données sur le marché de Dallas ainsi qu’un centre à Houston et un autre à Austin (et qui a récemment transféré son siège social de San Francisco à Austin), a vu son contrat national de plusieurs années avec le fournisseur national Foster Fuels porter ses fruits pendant la crise de l’électricité au Texas.
Quatre de ses centres de données à Dallas et celui de Houston ont fonctionné sur des générateurs pendant une période prolongée parce que l’alimentation électrique était instable, et Foster a littéralement parcouru des centaines de kilomètres supplémentaires pour mettre du carburant à la disposition de l’opérateur, en le faisant venir par camion de plusieurs États voisins.
« Nous sommes un client prioritaire et de première intervention avec Foster Fuels, au même titre que la FEMA et le DoD », a déclaré à DCK David Sukinik, directeur des opérations des centres de données chez Digital Realty.
Le fournisseur garantit la livraison de carburant aux sites de Digital Realty dans les 24 heures suivant la demande, et il n’a jamais manqué à cette garantie, nous a dit Benny Furtick, un responsable des opérations techniques de Digital Realty au Texas. L’incident de février » était unique, et il était beaucoup plus important que ce à quoi nous nous attendions « , mais Foster a fait ce qu’il fallait pour acheminer le carburant là où il était nécessaire, dit-il, rappelant qu’à un moment de la semaine, un » convoi entier de camions » transportant du carburant pour les clients de Foster a traversé la frontière entre la Louisiane et le Texas.
Surveillez la météo
Les opérateurs qui ont vu leurs systèmes de refroidissement ou leur infrastructure de basculement de l’alimentation de secours mal fonctionner n’ont pas eu le « luxe » d’avoir du carburant supplémentaire pour leur générateur comme principale préoccupation. DCK n’a pas été en mesure d’identifier les opérateurs qui ont rencontré ces problèmes, mais selon nos sources, ils les ont rencontrés parce que leurs systèmes n’étaient pas conçus pour fonctionner dans des températures aussi froides que celles qu’a connues le Texas cette semaine-là.
« Je ne pense pas que quiconque pensait que la situation serait aussi mauvaise qu’elle l’a été, si loin au sud », a déclaré à DCK Chris Brown, directeur de la technologie chez Uptime Institute et originaire du Texas (il vit maintenant dans l’Oklahoma).
Certains opérateurs texans, par exemple, ont vu le carburant de leurs générateurs commencer à se « gélifier » dans le froid, entraînant des dysfonctionnements des générateurs, a-t-il dit, expliquant que cela se produit généralement lorsqu’un certain processus de traitement du carburant est omis par un opérateur.
« Pour certains d’entre eux, les générateurs ne voulaient pas démarrer », a déclaré M. Brown. Cela peut se produire pour plusieurs raisons liées à la température, l’une des plus courantes étant la défaillance des batteries de démarrage des générateurs par grand froid, a-t-il expliqué.
Parmi les organisations qui ont déclaré que leurs applications ont été interrompues en raison des pannes des centres de données au Texas, citons Greyhound, le transporteur par autocar, qui a déclaré ne pas pouvoir vendre de billets en raison d’une panne d’électricité dans un centre de données au Texas, le fournisseur de technologies de santé Availity, qui a déclaré que son réseau principal a été interrompu en raison de l’échec de la tentative du fournisseur de son centre de données de Dallas de passer de l’alimentation électrique à l’alimentation de secours, et Medi-Cal, le fournisseur d’assurance maladie de l’État de Californie pour les personnes à faibles revenus, qui a déclaré que son site Web a été interrompu en raison de « conditions météorologiques extrêmes affectant son centre de données principal à Dallas… ».
Les services bancaires en ligne de la Dane County Credit Union et le centre de données de la ville d’Austin ont également été interrompus en raison du mauvais temps. (DCD a signalé toutes ces pannes au cours de la semaine des blackouts).
En dehors de l’espoir que l’ERCOT et l’État du Texas finissent par hivériser le réseau de l’État (qui n’est pas relié au réseau national), la leçon la plus importante et la plus évidente de l’incident pour les opérateurs de centres de données est que les plages de température historiques ne sont plus un guide fiable pour la conception de systèmes critiques.
L’Uptime Institute, dans ses normes de certification de la fiabilité, exige que les centres de données soient conçus pour résister à des plages de températures comprises dans les minimums et maximums extrêmes de 20 ans de l’ASHRAE, a déclaré M. Brown. Mais « même si vous concevez votre centre en fonction de cela, mère nature finira par vous montrer que nous sommes encore insignifiants », a-t-il ajouté.
« Nous sommes en train de battre des records de température sur 100 ans. Le fait que votre centre de données ait été conçu pour certaines conditions ambiantes extrêmes ne garantit pas que vous ne dépasserez jamais ces conditions ambiantes », a ajouté M. Brown.
Il est important de connaître les limites de votre système et de vous préparer à les dépasser. « Votre réussite sera à la mesure de votre créativité », a-t-il ajouté. Quel est le plan de votre entreprise pour le cas où un centre de données entier serait hors ligne ? Pouvez-vous vous connecter à un autre site suffisamment éloigné de la zone touchée ?
Une autre leçon évidente est de tenir compte des alertes météorologiques des autorités nationales et locales. « Je suggère aux centres de données, s’ils ne l’ont pas déjà compris, de surveiller la météo de plus près », a déclaré M. Fisher, de la Texas Food & Fuel Association. « Ce système qui nous a frappé était prévu 10 jours à l’avance pour être exactement ce qu’il était ».