El Laboratorio Europeo de Biología Molecular (EMBL) está ejecutando un lago de datos en dos sitios de centros de datos, basado en el almacenamiento de NetApp, para respaldar la investigación científica.
La investigación científica moderna depende en gran medida del análisis de big data y se basa cada vez más en métodos basados en inteligencia artificial (IA). Los grupos de investigación de EMBL desarrollan sus propios modelos de IA, que se entrenan y operan con portátiles Jupyter en entornos basados en contenedores. EMBL gestiona los datos subyacentes con NetApp Astra Trident, lo que proporciona almacenamiento de datos persistente para entornos de contenedores.
EMBL utiliza los servicios de datos y la nube de NetApp para entregar hasta 400 PB de datos científicos a sus más de 80 grupos de investigación y la comunidad de investigación global.
Rupert Lueck, jefe de TI en EMBL, dijo que el laboratorio realiza grandes experimentos en sus centros de imágenes y secuenciación utilizando microscopios electrónicos de alta gama. Con la microscopía crioelectrónica, la estructura espacial y la función de las moléculas individuales se pueden estudiar con mucha precisión. Esta técnica genera “toneladas de datos”, lo que hace que EMBL necesite almacenar entre 10 y 15 PB al año de datos de investigación en todos sus sitios, dijo.
El análisis de los datos experimentales a menudo se realiza en los clústeres de cómputo de alto rendimiento y los sistemas en la nube de EMBL. Muchos científicos acceden a ambos simultáneamente y, por lo tanto, tienen requisitos de rendimiento de datos extremadamente altos. Los sistemas de NetApp en EMBL son compatibles con estos requisitos de alto rendimiento, tanto en términos de aplicaciones de grupos de investigación que se ejecutan en los clústeres informáticos como en términos de interacción eficiente de los sistemas y servicios involucrados.
Para respaldar los requisitos de datos de sus investigadores, el lago de datos de EMBL comprende varios grupos distribuidos en los sitios del instituto. Los centros de datos de EMBL en Heidelberg y Cambridge proporcionan un total de más de 400 PB de almacenamiento en los sistemas de NetApp.
La configuración está diseñada para ofrecer un acceso eficiente a los extensos volúmenes de datos a través del Sistema de archivos de red y el Sistema de archivos de Internet común. Admite el movimiento ininterrumpido de conjuntos de datos exigentes, como los que se utilizan para el análisis de datos basado en el aprendizaje automático o el entrenamiento de modelos de IA, y permite migrar hardware y datos sin tiempo de inactividad.
En la configuración actual, dijo Lueck, todos los datos se envían al disco y luego pasan por una canalización de procesamiento de datos, donde se analiza su calidad. Los datos terminan en el lago de datos, pero algunos también se transmiten a las instalaciones informáticas de alto rendimiento de EMBL. Otros conjuntos de datos se procesan mediante GPU.
Lueck dijo que la infraestructura de almacenamiento de EMBL ha evolucionado con la llegada del almacenamiento y la contenedorización basados en la nube. “Estamos moviendo algunas cargas de trabajo a la nube y estamos explorando el aprovisionamiento de datos basado en la nube”, dijo. “NetApp Trident nos permite aprovisionar almacenamiento de manera flexible en Kubernetes u Openstack”.
El almacenamiento persistente basado en objetos, disponible en NetApp Trident para contenedores, es una parte importante de la estrategia de almacenamiento de datos de la organización. Lueck agregó: “Necesitamos asegurarnos de que los datos se almacenen de manera redundante y se puedan aprovisionar muy rápido utilizando una red de almacenamiento”.