Informe final sobre Nacionales pide mejoras en proceso de contingencia

El gran incidente causado por la falla de los Servicios Nacionales de Tráfico Aéreo (Nats) del Reino Unido en agosto de 2023 puede ser un hecho muy raro, pero un informe final sobre la falla del sistema recomendó 34 cambios.

El informe, preparado para la Autoridad de Aviación Civil del Reino Unido (CAA) por el Panel de Revisión Independiente, analizó qué se podría hacer mejor para limitar los efectos de la falla que ocurrió porque se envió al sistema un plan de vuelo con formato incorrecto.

En caso de falla de un sistema primario, el sistema de respaldo está diseñado para hacerse cargo del procesamiento sin problemas. Los autores del Informe final de la investigación del incidente mayor de los Nacionales Observó que en este caso el sistema primario no había fallado, sino que había actuado según lo programado. Se puso en modo de mantenimiento para asegurarse de que no se enviara información irreconciliable (y, por lo tanto, potencialmente insegura) a un controlador de tránsito aéreo.

Sin embargo, el sistema de respaldo aplicó la misma lógica al plan de vuelo con el mismo resultado. Posteriormente generó su propia excepción crítica, escribió un archivo de registro en el registro del sistema y se puso en modo de mantenimiento.

La falla de Nats se produjo porque tanto el subsistema primario como el de respaldo de la suite de recepción del plan de vuelo automatizado (FPRSA-R) estaban en modo de mantenimiento para proteger la seguridad de las operaciones de control de tráfico aéreo. Esto significaba que los planes de vuelo ya no podían procesarse automáticamente y ahora era necesaria la intervención manual.

Más contenido para leer: Biden aumenta las sanciones de chips de China

El informe recomendó que los Nacionales revisaran la estructura de mando actual, su tecnología y procesos de apoyo. Esto debería analizar si es probable que el modelo actual conduzca a los mejores resultados en la mayoría de los incidentes, o si se puede optimizar aún más con la adición de opciones alternativas.

Los autores del informe recomendaron que esta revisión incluya, como mínimo, opciones para modelos alternativos y ejemplos de otras estructuras de mando efectivas, incluido el uso de un modelo único de gestión de incidentes. También señalaron que dichas opciones deberían incluir orientación sobre cuándo es más apropiado el uso de cada opción y sugirieron una revisión de los requisitos de capacitación para maximizar las capacidades de supervisión operativa durante incidentes, y los requisitos de sistemas y procesos para apoyar estructuras seleccionadas, incluida la toma de decisiones. escalada y creación de un panorama operativo común.

Cuando Nats se desconectó, un subconjunto de datos sin procesar permaneció en el sistema pero estaba fuera de la cola de pausa establecida. Esto requirió una mayor escalada para identificar la causa raíz del problema.

El informe recomendó que se revise la documentación de control de tráfico aéreo para garantizar que los ingenieros y usuarios que no se dedican al sistema puedan comprender mejor la complejidad y el comportamiento del sistema. También debería realizarse una revisión conjunta de alto nivel de los servicios técnicos y operaciones de los sistemas críticos clave. El informe recomendó que esta revisión debería confirmar que la documentación operativa para cada sistema revisado tiene suficiente descripción y claridad para permitir que el sistema funcione de manera segura y resistente en circunstancias inesperadas.

Más contenido para leer: Poner los datos en el centro de la formulación de políticas acelerará la recuperación de Londres

Si bien se siguieron los procedimientos de escalada, los autores del informe señalaron que un contacto más temprano con el proveedor probablemente habría acelerado la resolución del evento.

Recomendaron que Nats debería actualizar el proceso de escalamiento para brindar orientación sobre el momento u otros criterios clave que deberían desencadenar cuándo y bajo qué circunstancias se solicita el soporte del proveedor. “Los Nats deberían crear un documento único y controlado que detalle los contratos de los proveedores y los contactos asociados, que brindan soporte las 24 horas”, afirma el informe. “Estos detalles deberían ser accesibles para cualquier persona en Nats que probablemente deba apoyar una respuesta a un incidente. Como mínimo, estos deberían incluir los niveles 1 a 3 de soporte de ingeniería”.

Entre las recomendaciones menores está que, dada la complejidad de la arquitectura del sistema, que se cambia y actualiza periódicamente, es imposible mantener actualizado el mapeo general del sistema de Nats. Los autores del informe recomendaron realizar una evaluación de la viabilidad de utilizar nueva tecnología, o un proceso de ingeniería basado en modelos, para producir rápidamente la información esquemática del sistema requerida para los equipos durante las primeras etapas de un incidente.

También dijeron que el director de servicios técnicos debería revisar la documentación operativa actual en apoyo de la implementación de nueva tecnología, o un proceso de ingeniería basado en modelos que respalde un mapeo rápido. “Esto debe garantizar que haya detalles suficientes y precisos para que los distintos niveles de soporte de ingeniería vean los sistemas de interfaz clave de alto nivel y los métodos mediante los cuales se conectan”, escribieron.

Más contenido para leer: Verizon Business forges managed network services partnership with HCLTech

El objetivo clave de esta revisión debería ser ayudar en la identificación de problemas que podrían estar presentes antes o después del sistema específico donde ocurre una falla por primera vez.

Dune: Guía de personajes de Prophecy – Asesor técnico

El primer ‘Smart Ring’ de Casio es un reloj de pulsera para tu dedo

Servicios

Recursos

¿Donde estamos?