En 2018 se plantearon preocupaciones sobre la configuración del sistema de refrigeración en uno de los centros de datos utilizados para albergar sistemas de atención médica clave para Guy’s y St Thomas’ NHS Foundation Trust y nunca se actuó por completo, un informe sobre la interrupción de la granja de servidores relacionada con la ola de calor que sufrió en el El verano de 2022 ha revelado.
Como informó anteriormente Computer Weekly, los dos centros de datos en los que confiaba Trust experimentaron dificultades técnicas relacionadas con la refrigeración el martes 19 de julio de 2022, que es el día en que las temperaturas del Reino Unido alcanzaron un máximo histórico de 40 °C.
Como lo confirmó una revisión de 58 páginas del incidente, publicada a fines de enero de 2023, las temperaturas extremas que experimentó el Reino Unido ese día provocaron que dos centros de datos utilizados para alojar los 371 sistemas de TI heredados de Trust se sobrecalentaran y funcionaran mal.
Los dos sitios, uno ubicado en Guy’s Hospital y el otro en St Thomas’, fueron diseñados para actuar como copias de seguridad entre sí en caso de una falla de TI, pero, el 19 de julio de 2022, ambos sitios sufrieron fallas como resultado directo de la ola de calor del Reino Unido.
El impacto del incidente se sintió durante varios meses después, y el informe indica que la recuperación también se vio obstaculizada por un ciberataque no relacionado a un proveedor externo en el que Trust confió para alojar un sistema de registros médicos en agosto de 2022.
“The Trust declaró un incidente crítico en el sitio el 19 de julio y se movió para implementar un modelo operativo basado en papel para respaldar la actividad clínica”, afirma el informe. “La recuperación técnica de los sistemas de TI tomó mucho más tiempo de lo anticipado al principio, y duró varias semanas antes de una restauración casi completa. El incidente del sitio crítico se suspendió el 21 de septiembre, después de haber incluido la gestión del ataque del ciclo no relacionado en un proveedor externo desde el 4 de agosto en adelante”.
El documento también confirmó que el incidente provocó que Trust incurriera en £1,4 millones en costos de TI inesperados, porque necesitaba obtener la ayuda de un servicio de recuperación de datos de terceros para extraer la información almacenada en los servidores dañados por la interrupción, y también necesitaba crear un nuevo sistema de copia de seguridad de datos basado en la nube.
Un evento potencialmente prevenible
El informe describe las interrupciones del centro de datos como un “evento potencialmente prevenible” y dice que es “evidente” que los sistemas de predicción, mitigación y generación de informes de riesgo que tenía el Trust eran inadecuados.
“Esto representa una falla de los procesos de administración de riesgos de Trust para mitigar de manera efectiva el riesgo de falla del centro de datos”, afirma la revisión.
También dice que si bien la revisión no encontró “una sola falla flagrante” para señalar como causa raíz, sus investigaciones sugieren que fue una combinación de factores lo que condujo a la “falla catastrófica” de los sistemas de TI del Trust.
Estos factores incluyen la antigüedad de su infraestructura tecnológica, la naturaleza “demasiado” compleja de su centro de datos y los “sistemas de enfriamiento subóptimos” que tenía.
Una cronología del incidente, detallada en el informe, revela que las preocupaciones sobre la configuración de los sistemas de enfriamiento en el centro de datos de St Thomas fueron señaladas por primera vez por un proveedor en agosto de 2018, quien identificó que los condensadores de aire acondicionado del sitio no estaban “ubicados de manera óptima para flujo de aire”.
En ese momento se hizo una recomendación para mover los condensadores, pero, aunque se introdujeron otras mitigaciones, este cambio no se promulgó.
El cronograma también establece que una revisión del centro de datos de Guy por parte del mismo proveedor sugirió inicialmente que sus unidades de tratamiento de aire se acercarían al final de su vida útil en “2021/2022”, aunque esta evaluación se revisó más tarde en febrero de 2022 y se amplió por 12 más. meses.
Como resultado de esta evaluación, en marzo de 2022 se envió al Trust una solicitud de £195,000 en fondos para que se pudiera instalar un sistema de reemplazo, pero no había sido aprobada en el momento de la interrupción. Desde entonces, esta solicitud de financiación se incrementó a £360,000 y se aprobó, según confirmó el documento de revisión.
“The Trust nunca más debe permitirse estar en una situación en la que la recuperación de sus sistemas de TI centrales, ya sea como resultado de una falla de infraestructura, un ataque cibernético u otra causa, tarde tanto en completarse”, afirma la revisión.
“Como resultado, el Trust debe implementar un plan estratégico integral, respaldado por una inversión adecuada, para garantizar que los requisitos futuros de procesamiento informático y almacenamiento de datos sean sólidos, capaces de satisfacer la creciente demanda y también resistentes a los riesgos previsibles. Estos planes deben incluir pruebas periódicas y exhaustivas de la recuperación de los sistemas”.
El Trust está en camino de implementar un nuevo sistema de registro de salud electrónico en abril de 2023, según la revisión, que allanará el camino para una “racionalización y consolidación” de sus sistemas de TI heredados y, se espera, reforzará la capacidad de recuperación de sus sistemas informáticos.
En cuanto a la resiliencia, el informe dice que el Trust “debe prepararse para el hecho de que el cambio climático significa que se espera que los fenómenos meteorológicos extremos sean más frecuentes y desafiantes en el futuro”. En respuesta, ha confirmado que ha encargado el asesoramiento de expertos sobre cómo garantizar que sus sistemas estén mejor equipados para hacer frente a tales amenazas en el futuro.