A medida que los satélites se mueven por el espacio, las lecturas de imágenes y datos que llegan en un flujo constante desde ellos y desde las sondas son únicas y no se pueden perder. Una vez capturado, se procesa, se convierte a un formato de archivo que puede ser buscado por la comunidad de investigación global, protegido y utilizado por numerosas aplicaciones. Y cada año, los datos existentes se vuelven a procesar a medida que se diseñan nuevos medios de modelado matemático o se agregan nuevas mediciones a la información existente.
Esa es la misión, en términos de datos, del Centro Europeo de Astronomía Espacial (ESAC), la única parte de la Agencia Espacial Europea (ESA) donde la palabra “espacio” significa capacidad de almacenamiento de datos. Recurrió al almacenamiento de NetApp como servicio para proporcionar la capacidad que necesita.
“Aquí, las características de la infraestructura de almacenamiento no se parecen a nada que se encuentre en otros lugares”, dijo Rubén Alvarez, director de TI para ciencia y operaciones de la ESA.
El sitio de la ESA en Madrid se asienta sobre la infraestructura de almacenamiento, donde el flujo de datos llega desde el espacio, los servidores virtualizados y en contenedores lo exponen, y los centros de investigación obtienen nuevos conocimientos de él.
Poner archivos en producción
Actualmente, esa infraestructura de almacenamiento totaliza alrededor de 8 PB. Sin embargo, la capacidad debe aumentarse constantemente debido a la tasa exponencial de crecimiento de los datos de los equipos de medición por satélite.
Eso incluye el proyecto Gaia, que ha estado construyendo imágenes en 3D de la Vía Láctea desde 2013 y representará hasta 3 PB del total para 2025. Luego está Euclid, que comenzará el análisis de la materia oscura en 2024 y producirá hasta 20 PB para 2030.
Por el contrario, la sonda Rosetta, que aterrizó en un cometa en 2014 para recopilar datos durante dos años, solo produjo 218 GB. Pero eso plantea un desafío diferente, transmitir sus datos a 400 millones de kilómetros de regreso a la Tierra con la restricción de que es imposible tomar una segunda lectura si no se almacenó correctamente la primera vez.
Entre las peculiaridades de la “biblioteca del universo” de la ESA, que permite el almacenamiento como ningún otro, es que los datos se ponen en producción no como “datos calientes” sino en archivos. Técnicamente, el requisito es combinar alta capacidad en discos duros giratorios, que son más frágiles y lentos que los SSD más caros, con la capacidad de soportar una actividad intensiva (18 000 usuarios por mes) y una confiabilidad excepcional.
Los nuevos datos se encuentran junto a todos los datos producidos por la ESA desde 1999 y que la comunidad mundial de investigación espacial utiliza todos los días. Además, las mejores prácticas europeas dictan que las revistas científicas deben hacer que las fuentes de datos estén disponibles a través de enlaces.
La variedad de acceso se hace más compleja porque los datos de la ESA comprenden una gran cantidad de archivos. Pero Álvarez rechaza la idea de gestionar el almacenamiento por niveles.
“No usamos la nube pública, excepto para requisitos de puntos, porque la soberanía en nuestro propio centro de datos en Madrid encaja con los valores de una agencia pública europea”, dijo Álvarez.
“Eso quiere decir que la ESA no es una empresa de TI. Su vocación es invertir ingentes recursos en la investigación espacial, por lo que los que dispone el director de TI son limitados. Por eso necesitamos equipos de almacenamiento que realmente simplifiquen las tareas de administración”.
NetApp simplifica el trabajo
ESAC ha utilizado matrices de NetApp desde 2005, con archivadores FAS con HDD para la biblioteca de datos y matrices basadas en flash AFF para el almacenamiento de aplicaciones.
“No tenemos un arreglo por carga de trabajo, sino un clúster que contiene datos para todo”, dijo Álvarez. “Esa es la forma más eficiente de administrar la complejidad y simplificar el trabajo de los equipos de TI.
“Desde el principio, no decidimos quedarnos con un solo proveedor. Solo queríamos comprar los sistemas de almacenamiento más confiables y fáciles de administrar. Hablamos con nuestros colegas de la NASA, nos dijeron que usan NetApp e hicimos lo que ellos hicieron.
“El soporte de NetApp ha sido constante. Tener un proveedor que nos acompañe es importante en esta etapa. Creo que fuimos de los primeros clientes en pagar el almacenamiento por uso. Pagamos para que NetApp brinde un servicio de almacenamiento que funcione todo el tiempo con la capacidad que necesitamos”.
Álvarez señaló procesos de mantenimiento transparentes que no tienen impacto en la producción: “El mantenimiento no es solo una intervención física para agregar o reemplazar discos, o estanterías de discos. Para garantizar la confiabilidad de nuestros datos, debemos aplicar actualizaciones regularmente: para el firmware del controlador, para los sistemas operativos de matriz. No se puede simplemente pedir a los satélites que dejen de enviar datos o a los investigadores que esperen para acceder a la información”.
evolución funcional
Además de la constante necesidad de añadir capacidad, las características técnicas también están sujetas a evolución.
“Por ejemplo, la mayoría de nuestros datos están en formato de archivo porque así es como la comunidad científica de formato accede principalmente a ellos”, dijo Álvarez. “Pero comenzamos a ver la demanda de protocolos de objetos y comenzamos una transición lenta en esta dirección”.
En cuanto a la seguridad de los datos, cuatro soluciones de terceros se encargan de la copia de seguridad, pero también se utilizan instantáneas de NetApp. Estos se ocupan de la escritura de archivos y están configurados para activarse ante la menor corrupción detectada en los datos.
Con respecto a los controles de acceso, Álvarez dijo: “Nuestros datos están diseñados para compartirse entre un gran número de personas, por lo que es mejor que cualquiera pueda leerlos. No compartimos las mismas preocupaciones con respecto al almacenamiento que una empresa clásica. Y lo mismo ocurre con los problemas de ciberseguridad, que nos preocupan menos que a otros”.