La mayoría de los sensores CrowdStrike Falcon afectados por una actualización fallida de respuesta rápida volvieron a funcionar antes del fin de semana del 27 y 28 de julio, mientras continúan los esfuerzos para remediar el incidente del 19 de julio que provocó el fallo de más de ocho millones de máquinas con Windows.
Escribiendo en LinkedIn el 26 de julio, el director ejecutivo de CrowdStrike, George Kurtz, que ha estado comunicando información sobre el incidente a un ritmo constante desde que se desarrolló por primera vez, dijo que hasta el jueves 25 de julio “más del 97%” de los sensores de Windows estaban nuevamente en línea.
“Este progreso se debe a los esfuerzos incansables de nuestros clientes, socios y la dedicación de nuestro equipo en CrowdStrike. Sin embargo, entendemos que nuestro trabajo aún no está completo y seguimos comprometidos a restaurar todos los sistemas afectados”, dijo Kurtz.
“A nuestros clientes que aún están afectados, sepan que no descansaremos hasta lograr una recuperación total. En CrowdStrike, nuestra misión es ganarnos su confianza salvaguardando sus operaciones. Lamento profundamente la interrupción que ha causado esta interrupción y me disculpo personalmente con todos los afectados. Si bien no puedo prometer la perfección, puedo prometer una respuesta centrada, eficaz y con sentido de urgencia”.
Kurtz dijo que los esfuerzos de reparación habían sido de gran ayuda gracias al uso de técnicas de recuperación automatizadas y a la movilización de todos los recursos posibles para ayudar a los clientes afectados. Reiteró el compromiso de CrowdStrike con su misión principal (detener las infracciones), pero con un nuevo enfoque en los controles y la resiliencia del cliente, como se detalla en el informe preliminar de incidentes de la empresa la semana pasada.
Actualización fija que se implementará pronto
Mientras tanto, CrowdStrike confirmó al título hermano de Computer Weekly, TechTarget Security, antes del fin de semana que el error lógico en su herramienta de validación que causó el caos definitivamente se solucionó, y que ahora se están realizando pruebas intensivas antes de que la actualización pueda implementarse en sus sistemas backend. fijado para los próximos días.
La actualización contaminada fue parte de una implementación de respuesta rápida normalmente utilizada por CrowdStrike para mejorar los mecanismos de protección dinámica de su plataforma Falcon; es decir, fue diseñada para identificar nuevos problemas de seguridad cibernética y ayudar a los clientes a mitigarlos.
La compañía realiza este tipo de actualizaciones todo el tiempo, pero en esta ocasión, algún contenido problemático en un archivo de canal pasó por alto los ojos del validador de contenido automatizado de CrowdStrike. Los dos problemas combinados provocaron una condición de memoria fuera de límites, lo que desencadenó una excepción que abrumaba al sistema operativo Windows y provocaba que los dispositivos vulnerables fallaran y fallaran, lo que resultó en la infame pantalla azul de la muerte.
CrowdStrike está intentando asegurarse de que el problema no pueda replicarse en el futuro mejorando la resiliencia de sus actualizaciones de respuesta rápida mediante pruebas mejoradas en múltiples niveles y agregando comprobaciones de validación actualizadas a la herramienta de validación de contenido automatizada que lo decepcionó.
Ahora también planea implementar actualizaciones de respuesta rápida de forma escalonada, implementándolas en la base de sensores Falcon más lentamente y haciendo uso de implementaciones “canarias” diseñadas para resaltar cualquier problema importante antes de que se propague.
Esto hará que el rendimiento de los sensores y del sistema reciba un monitoreo mejorado y, en algún momento, los clientes de CrowdStrike tendrán más opciones para administrar ellos mismos las actualizaciones de respuesta rápida.
Impactos de la vida real
Mientras tanto, la interrupción sigue sintiendo los impactos en el mundo real, que en particular provocó que aerolíneas de todo el mundo retrasaran, reprogramaran y cancelaran vuelos.
Entre las historias que han surgido se encuentra la de un hombre de 83 años que se convirtió en objeto de una operación de búsqueda por parte de las autoridades de Estados Unidos. Patrick Bailey, que tenía previsto volar de Florida a California el 19 de julio, fue alojado en un hotel local cuando su vuelo fue cancelado.
Aunque Bailey se fue a la mañana siguiente, accidentalmente dejó su teléfono móvil en su habitación y desapareció durante varios días. Bailey finalmente apareció en California el 28 de julio y, en cambio, decidió tomar un autobús Greyhound de larga distancia a través de Estados Unidos.