La firma cibernética CrowdStrike, bajo fuego, ha publicado una revisión inicial posterior al incidente que proporciona más información sobre la actualización que salió mal y que derribó millones de dispositivos Microsoft el 19 de julio, causando un caos global.
En una actualización publicada el 24 de julio, la empresa dijo que había intentado publicar una actualización de configuración de contenido para su sensor Falcon en hosts de Windows temprano en la mañana del viernes.
Esta actualización de “respuesta rápida” formó parte de los mecanismos de protección dinámica normales utilizados por la plataforma Falcon para llevar a cabo actividades de detección y remediación de amenazas cibernéticas. Básicamente, CrowdStrike utiliza las actualizaciones para identificar nuevos indicadores del comportamiento de los actores de amenazas y mejorar sus capacidades de detección y prevención.
Estas actualizaciones entregadas en la nube normalmente pasarían sin llamar la atención. Sin embargo, esta actualización provocó que los hosts de Windows que ejecutaban el sensor Falcon 7.11 y versiones posteriores que estaban en línea en ese momento fallaran.
De hecho, el problema en juego se remonta a febrero de 2024, cuando se lanzó la versión 7.11 del sensor Falcon que contenía plantillas para detectar una nueva técnica de ataque que abusaba de las canalizaciones con nombre: un conducto de comunicación cliente-servidor. Posteriormente, estas plantillas se sometieron a pruebas de estrés y se validaron para su uso antes de lanzarlas a producción. Se implementaron tres instancias de plantilla más durante las semanas siguientes, nuevamente sin incidentes.
Avance rápido hasta el 19 de julio, cuando se alinearon para desplegar dos instancias de plantilla adicionales para la misma técnica de ataque. Sin embargo, en esta ocasión, dijo CrowdStrike, un error en un validador de contenido automatizado utilizado para verificar las actualizaciones permitió a uno de ellos pasar las comprobaciones de validación “a pesar de contener datos de contenido problemáticos”.
Se implementó en base a las pruebas realizadas en marzo, pero cuando se recibió y cargó, este contenido problemático en el archivo de canal 291 resultó en una condición de memoria fuera de límites, lo que desencadenó una excepción que abrumó a los sistemas operativos Windows.
La actualización con errores estuvo activa durante poco más de una hora y cuarto antes de que CrowdStrike la revirtiera, de 04:09 UTC a 05:27 UTC (5:09 BST a 06:27 BST) del viernes, pero este fue tiempo suficiente para causar más ocho millones de dispositivos en todo el mundo se bloqueen y muestren la infame pantalla azul de la muerte, cuyas fotografías se difundieron por todo el mundo.
El director ejecutivo de CrowdStrike, George Kurtz, volvió a disculparse con los clientes y otras personas afectadas, incluidos los miles de personas que sufrieron retrasos y cancelaciones de vuelos.
“Todo CrowdStrike comprende la gravedad y el impacto de la situación. Rápidamente identificamos el problema e implementamos una solución, lo que nos permitió concentrarnos diligentemente en restaurar los sistemas de los clientes como nuestra máxima prioridad”, dijo Kurtz.
Kurtz también reiteró que ni él mismo ni Microsoft habían sido víctimas de ningún tipo de ciberataque y reafirmó que los servidores Linux y Mac no se vieron afectados.
“CrowdStrike funciona con normalidad y este problema no afecta a nuestros sistemas de plataforma Falcon. No hay ningún impacto en ninguna protección si el sensor Falcon está instalado. Los servicios Falcon Complete y Falcon OverWatch no se verán afectados”, afirmó.
“Hemos movilizado a todo CrowdStrike para ayudarlo a usted y a sus equipos. Si tiene preguntas o necesita soporte adicional, comuníquese con su representante de CrowdStrike o con el soporte técnico.
“Sabemos que los adversarios y los malos actores intentarán explotar eventos como este. Animo a todos a permanecer atentos y asegurarse de interactuar con los representantes oficiales de CrowdStrike. Nuestro blog y soporte técnico seguirán siendo los canales oficiales para las últimas actualizaciones.
Kurtz añadió: “Nada es más importante para mí que la confianza que nuestros clientes y socios han depositado en CrowdStrike. A medida que resolvamos este incidente, tienen mi compromiso de brindar total transparencia sobre cómo ocurrió y los pasos que estamos tomando para evitar que algo como esto vuelva a suceder”.
¿Qué pasa después?
CrowdStrike ha establecido ahora un amplio plan preliminar diseñado para evitar que un incidente de este tipo vuelva a ocurrir.
Esto incluye mejorar la resiliencia de las actualizaciones de respuesta rápida mediante la realización de más pruebas de desarrollador, pruebas de actualización y reversión, pruebas de estrés, inyección de fallas y fuzzing, pruebas de estabilidad y pruebas de interfaz de contenido. Se agregarán más comprobaciones de validación a su sistema de validación de contenido y se mejorará el manejo de errores existente de otros componentes de su configuración.
Los futuros despliegues de respuesta rápida también se realizarán de forma escalonada, desplegándose gradualmente en porciones más grandes de la base de sensores Falcon, comenzando con el llamado despliegue “canario”. Como parte de esto, el rendimiento de los sensores y del sistema se someterá a un seguimiento mejorado, mientras que a los clientes se les dará un mayor control sobre la entrega de dichas actualizaciones, que ahora también vendrán con notas de la versión.