¿Podría implementar 850 TB de capacidad de almacenamiento por 150 000 €, y ni un euro más?
Ese fue el desafío al que se enfrentó el Instituto de Biología Molecular de Plantas (IBMP) en Estrasburgo, que llevó a cabo utilizando la arquitectura de almacenamiento de objetos definida por software Swarm S3 de DataCore en hardware básico.
“Anteriormente, el instituto tenía un presupuesto anual de 4,4 millones de euros para apoyar a 180 investigadores”, dice Jean-Luc Evrard, jefe de sistemas de información del instituto. “Eso significaba que cada mes de enero podíamos invertir 600.000 € en equipos de investigación o TI para apoyar la investigación. Pero ese presupuesto se ha reducido a unos 2,2 millones de euros, por lo que no había nada disponible para invertir en TI.
“Teníamos una solución posible: podíamos pedir ayuda de emergencia al estado por 150 000 €. Es una cantidad pequeña en comparación con lo que hubiéramos tenido y una vez que se gastó, no habría nada que hacer frente a cualquier necesidad adicional de escalar”.
Evrard agrega que los arreglos de arrendamiento con pequeños pagos realizados durante la vigencia del contrato no eran una opción.
Cómo hacer que una inversión dure varios años
Desde 2015, IBMP ha utilizado el almacenamiento definido por software SANsymphony de DataCore, implementado en dos arreglos Dell Compellent redundantes con una capacidad total de 210 TB. Estos arreglos ingerirían alrededor de 2 TB de datos de instrumentación por día y Evrard estaba muy satisfecho con ellos.
A Evrard le gusta el enfoque únicamente definido por software de DataCore, que funciona bien dentro de la restricción de tener que comprar hardware de proveedores especificados por la organización. También elogia su apoyo, que obtuvo respuestas en una hora desde sus oficinas de Londres.
El problema fue que surgieron otras limitaciones en el almacenamiento como resultado del nuevo equipo de medición que producía una carga útil de datos mucho más pesada. Eso trajo la necesidad de almacenar 80 TB de datos nuevos cada año, con un período de retención de al menos 15 años debido a la necesidad de incluir datos en publicaciones científicas producidas regularmente.
Pero SANsymphony, que se destaca en términos de velocidad de acceso, no se adecuaba a este caso de uso. Los 2 TB diarios que manejaba no estaban destinados a almacenarse en él durante más de unas pocas semanas.
Incluso el almacenamiento de objetos acabó con el presupuesto
Entonces, en 2018, Evrard comenzó a buscar una nueva solución de almacenamiento que no costara más de 150 000 €.
“Rápidamente nos dimos cuenta de que el almacenamiento necesario para archivar nuestros datos tendría que ser almacenamiento de objetos”, dice. “En parte, eso se debió a que no es costoso, pero también a que te permite etiquetar cosas con una cierta cantidad de metadatos. Esos metadatos permiten a los investigadores citar evidencia en su trabajo más fácilmente”.
Inicialmente, Evrard buscó soluciones de nube privada. “OVHcloud nos dijo que no sabían cómo hacer lo que queríamos”, dice. “También fuimos y buscamos en la Universidad de Estrasburgo, que tenía su propio centro de datos. Cuando dijimos que teníamos un presupuesto de 150 000 €, dijeron que podían alojar nuestros datos durante tres años, pero después de eso, nuestro almacenamiento ya no estaba garantizado”.
Así que se trataba de recurrir a soluciones más permanentes.
“Ceph fue la solución generalmente recomendada entre la comunidad de investigadores”, dice Evrard. “Lo evaluamos, pero para nosotros era demasiado complejo y habría requerido mucho trabajo. Además, Ceph es mucho menos una solución de almacenamiento de objetos que una solución de almacenamiento distribuido. En otras palabras, no se ajustaba bien a nuestras necesidades.
“Un producto que se correspondía exactamente con nuestras expectativas era la matriz ActiveScale, que Quantum había comprado a Western Digital.
“Pero, lamentablemente, en el momento en que estábamos decidiendo, Quantum cambió su modelo de negocio y no era posible comprarlo, sino solo arrendarlo. Y sin saber cuáles serían nuestros futuros planes de inversión, no podíamos correr el riesgo de tener que devolver los arreglos en algún momento”.
Swarm: almacenamiento de metadatos junto con archivos
Y luego DataCore compró Caringo’s Swarm. El proveedor presentó la nueva solución al equipo de IBMP y fue amor a primera vista.
“El primer punto bueno del producto es que viene con un motor de búsqueda integral”, dice Evrard. “La segunda es que podríamos comprar licencias perpetuas con una garantía de siete años. Finalmente, el argumento que nos sedujo fue que los metadatos no se guardan en una base de datos separada sino junto a los archivos, en el mismo disco”.
Agrega: “Cuando observa la mayoría de las soluciones de almacenamiento de objetos, depende más o menos de una base de datos que federa todos los metadatos en una base de datos separada. Y si esa base de datos se corrompe, está en problemas.
“Con Swarm, si estás en una situación en la que un nodo se ha caído y no puedes reemplazarlo porque no tienes todas las piezas, ya no es un problema porque todo lo que tienes que hacer es mover los discos a los nodos. con suficientes ranuras libres para recuperar los datos con los metadatos”.
La gran tarea: Elegir qué tipos de metadatos
Por lo tanto, IBMP invirtió sus 150 000 € en 10 nodos de almacenamiento, implementados en servidores Dell, que se ejecutan bajo Swarm con 850 TB de capacidad utilizable (1,4 PB sin procesar). Tres funcionan como controladores para gestionar el acceso, mientras que siete contienen la capacidad general.
El equipo de Evrard pondrá el sistema en funcionamiento en el primer trimestre de 2022. “El retraso se debe a algunos factores, incluida la capacitación del equipo de TI y la definición de la política de almacenamiento”, dice.
“Nuestra mayor tarea es enumerar qué metadatos deben proporcionar nuestros investigadores para garantizar que los documentos se encuentren fácilmente en el futuro. En particular, eso incluye metadatos que pueden proporcionar prueba de datos y ubicación. Creemos que también podemos desarrollar una interfaz web personalizada que simplifique la captura de estos metadatos para los investigadores”.
Confianza existente en DataCore
Evrard aún no ha podido dar un paso atrás y evaluar Swarm correctamente, pero ya tenía cierta fe en los productos DataCore.
“Por ejemplo, esta solución se ejecuta en dos arreglos Dell Compellent, pero cuando el proveedor los implementó, tenía un número de serie de hardware incorrecto”, dice. “Eso llevó a que las actualizaciones no funcionaran hasta que nos dimos cuenta después de que había pasado casi un año, momento en el cual la matriz tenía 100 TB de datos esenciales. Para solucionar este error, tuvimos que borrar el contenido, realizar un restablecimiento de fábrica y luego reinstalar los datos.
“Gracias a SANsymphony, la operación fue muy sencilla. El sistema cambió momentáneamente toda la producción al arreglo secundario mientras se reiniciaba el primario. Luego, la rehidratación de los datos del arreglo secundario al primario se realizó automáticamente. Ningún usuario se dio cuenta de lo que estaba sucediendo durante este proceso”.
Siguiente: Arreglos redundantes para reducir los costos del centro de datos
El jefe de sistemas de TI no necesariamente sabe qué inversiones podrá realizar en el futuro, pero tiene una idea precisa de la dirección que le gustaría tomar.
“Hoy, la mayor parte de nuestros costos de TI se destinan a equipos de seguridad del centro de datos, en particular, a los generadores eléctricos”, dice Evrard. “Si tengo los medios para invertir en almacenamiento, distribuiré las matrices Swarm entre Estrasburgo, Nancy y Reims, que están conectadas por fibra oscura. Eso es para que, al usar Swarm, los centros de datos se replicarán entre ellos y siempre habrá uno al que se pueda conmutar por error en caso de una interrupción.
“Al hacer esto, no tendré la misma necesidad de seguridad física en los arreglos que tengo hoy. Y con el dinero ahorrado en los generadores, no compraré más TB, ¡sino PB!”