El proveedor de software bancario Vialink necesitaba una matriz de almacenamiento de alto rendimiento, pero en su lugar implementó la infraestructura hiperconvergente (HCI) de Nutanix. No comenzó buscando la funcionalidad de servidor que viene con HCI, pero resultó más económica que las alternativas que solo ofrecían almacenamiento. Y Vialink se dio cuenta de que elegir hiperconvergente también simplificaría radicalmente el trabajo de sus equipos técnicos.
“Antes de tomar esta decisión, solo éramos tres administrando la infraestructura. Nuestros días eran bastante estresantes, enfrentados a un arreglo de almacenamiento que no podía soportar nuestros picos de actividad después de apenas dos años”, dijo el jefe de sistemas y redes, Emmanuel Helfenstein. “Cuando te enfrentas a este tipo de situación, puedes decir que es posible cambiar radicalmente la infraestructura”.
El software como servicio de Vialink digitaliza los procesos regulatorios, principalmente los de los clientes bancarios (BPCE es un cliente destacado), pero también en el inmobiliario donde suministra una solución de firma electrónica al grupo Citya.
El producto estrella de la compañía es KYC, que maneja escaneos de documentos de nuevos clientes bancarios a través de OCR y conexiones a servicios de terceros para verificarlos y atribuirles una puntuación de confianza.
Debido a la naturaleza regulada de su trabajo, Vialink no usa la nube, excepto para entrenar módulos de datos con GPU virtuales de Google Cloud Platform. Todo lo demás se maneja en sus propios centros de datos.
“En condiciones normales, no tenemos una gran necesidad de ancho de banda”, dijo Helfenstein. “Entonces, en 2016, cuando virtualizamos todos nuestros servidores, elegimos una infraestructura de almacenamiento que se adaptara a eso. Ese fue un arreglo de NetApp con 48 unidades SAS en cada uno de nuestros dos sitios”.
“En ese momento, eso funcionó bien, pero desde que comenzamos a manejar operaciones más exigentes, como ejecuciones por lotes en bases de datos o recibir grandes solicitudes de clientes, el rendimiento colapsó”.
Helfenstein dijo que 7000 IOPS era el límite más allá del cual los arreglos de NetApp no respondían. “No creo que los discos fueran el problema, sino la CPU en el arreglo, que no estaba a la altura”.
Inicialmente, el equipo de TI intentó detener los servicios que exigían mucho procesamiento, dijo Helfenstein. Bloquearon la deduplicación y la compresión de datos y recuperaron algunas IOPS. “Después de un tiempo nos dimos cuenta de que este hardware no produciría un milagro”, dijo. “Hubiera sido inútil agregar más estantes para discos”.
Helfenstein y sus compañeros de trabajo estaban “sufriendo”, dijo. Se contactaron con sus proveedores para buscar una alternativa: NetApp, Pure Storage y Dell EMC, que ya había ofrecido un cambio a su VxRail hiperconvergente, y luego Nutanix.
Nutanix: Por el precio, y su consola global
“Lo más destacado para nosotros de Nutanix fue que ofrecía la misma funcionalidad informática que VxRail de Dell EMC”, dijo Helfenstein. “Pero al mismo precio que las soluciones de NetApp y Pure Storage, que carecían de la parte del servidor”.
Todos estos productos contienen procesadores. Para NetApp y Pure, solo ofrece funcionalidad de almacenamiento. Con VxRail también puede usarlo para ejecutar máquinas virtuales, pero con una licencia de ESXi adicional. Mientras tanto, el hipervisor AHV de Nutanix es gratuito.
“El costo de la licencia de VMware sería de 50 000 € el primer año, para administrar 16 núcleos e implementar dos consolas vCenter”, dijo Helefenstein. “Más 20.000€ al año de mantenimiento. Es ese ahorro que logramos al elegir Nutanix”.
La idea de poner las máquinas virtuales y el almacenamiento en una sola caja va más allá de los simples ahorros que Vialink podría lograr al no tener que comprar servidores para combinar con sus arreglos de unidades. “Cuando eres un pequeño equipo de TI, no quieres administrar 50 consolas: Nutanix pone todo en una sola pantalla”, dijo Helfenstein.
“El software de administración de Nutanix maneja, por ejemplo, las actualizaciones de firmware en la placa base, las tarjetas controladoras y los SSD”, dijo. “Y lo hace de forma transparente, sin ninguna intervención humana. Anteriormente, requería operaciones complementarias complejas en los servidores Dell que accedían a nuestros arreglos de NetApp”.
Una migración transparente
En 2019, Vialink compró dos clústeres de Nutanix. Cada uno consta de cuatro nodos SuperMicro con dos zócalos, 512 GB de RAM y 38 TB de almacenamiento en 12 SSD de 3,84 TB. La empresa optó por dos opciones: compartir archivos a través de SMB con otros servidores por razones de encriptación que es obligatoria para los proveedores del sector bancario.
Cada clúster está en uno de los centros de datos de Vialink. “Cada dato es el espejo de recuperación ante desastres del otro”, dijo Helfenstein. “En otras palabras, ejecutan diferentes aplicaciones pero sincronizan todos sus datos. De esa manera, compartimos la carga diaria entre nuestros dos sitios, pero si uno falla, el otro puede manejar el 100 % de la producción”. Nutanix cubre la sincronización de los datos almacenados a través de fibra oscura de 1 Gbps.
Para migrar datos y máquinas virtuales del sistema existente al nuevo, Vialink utilizó una herramienta llamada Move, también suministrada por Nutanix y que convertía las máquinas virtuales VMware del formato ESXi a AHV sobre la marcha.
“La migración se realizó de manera transparente y las aplicaciones continuaron funcionando durante la copia”, dijo Helfenstein. “Pero en algún momento hay que reiniciarlos en los nuevos clústeres, así que llevamos a cabo todo esto los fines de semana.
“Migramos 300 máquinas virtuales como esa en tres meses, 10 máquinas virtuales diferentes a la vez, para no bloquear todo si había un problema”.
Da la casualidad de que hubo un problema con cuatro máquinas virtuales. “La conversión de nuestras aplicaciones de VMware a formato AHV no nos supuso ningún problema porque todas sus máquinas virtuales se ejecutan en un sistema Linux Debian que incluye todos los controladores necesarios para cada clúster”, dijo Helfenstein. “Por otro lado, teníamos dispositivos de red virtual que habíamos comprado preconfigurados para los antiguos clústeres de servidores de Dell que tuvimos que adaptar a mano para el nuevo clúster de Nutanix”.
Beneficios: nodos que manejan la carga de trabajo y más
Los clústeres de Nutanix no tardaron mucho en llegar cuando Helfenstein y su equipo notaron que el conteo de IOPS “fue a 10 000, 20 000… luego 30 000 IOPS. Se mantuvo sin fallar y habíamos demostrado que podía admitir un millón de IOPS. Logramos una especie de serenidad”.
El apoyo fue otra área de satisfacción. “Nutanix había alentado el contacto con su servicio de soporte a la menor preocupación”, dijo Helfenstein. “Les tomamos la palabra. Abrimos un ticket cuando teníamos que realizar una actualización o cambiar alguna configuración. Fueron muy reactivos y siempre respondieron de manera servicial”.
En 2020, una actualización salió mal, con el resultado de que uno de los nodos desapareció. “Abrimos un ticket de alta prioridad”, dijo Helefenstein. “Alguien de Nutanix nos contactó rápidamente a través de Zoom. Presionó tres comandos y el sistema se reinició en una hora, sin que los usuarios sintieran ningún efecto”.
Habiendo dicho eso, la consola Prism es lo suficientemente fácil de usar para que el equipo de Vialink maneje la mayoría de los incidentes. En una ocasión, el enlace de 1 Gbps entre los centros de datos se saturó, cortando las comunicaciones normales entre las aplicaciones. Una simple intervención a través de Prism para configurar el ancho de banda de sincronización entre los dos clústeres fue suficiente para solucionar el problema en segundos.
Después de un año sin más incidentes, Vialink decidió migrar sus contenedores de Kubernetes a Nutanix.
“Nutanix sugirió su orquestador de Kubernetes, Karbon”, dijo Helfenstein. “Viene gratis con el producto de todos modos. Y no solo eso, también tuvimos la ventaja de poder administrar nuestros contenedores desde la misma consola de Prism que usamos para administrar todo lo demás. Anteriormente, habíamos utilizado una consola de Kubernetes dedicada”.
La carga de trabajo adicional que llevan estos contenedores, en particular las aplicaciones Java, significó la adición de memoria para cada nodo para llevarlo a 768 GB. Helfenstein dijo que ellos mismos compraron las tarjetas de memoria y las instalaron, lo cual no fue un problema para Nutanix. Ahora, los clústeres ejecutan alrededor de 600 instancias virtuales.
Administrar bases de datos sin un DBA
Con respecto a la simplificación de la administración, el equipo de TI estaba listo para recibir otra agradable sorpresa.
“En 2021, nuestros desarrolladores nos pidieron que admitiéramos las bases de datos Mongo DB y Postgres en los clústeres de Nutanix”, dijo Helfenstein. “El problema era que no teníamos un DBA en el equipo. Entonces, Nutanix sugirió que implementáramos ERA, que es una herramienta para automatizar la administración de bases de datos, que administra la disponibilidad y permite la implementación de copias de prueba y de trabajo con un solo clic”.
Vialink también ha invertido en el software de respaldo Hycu, que se especializa en proteger los clústeres de Nutanix. Esto, sin embargo, no está integrado en Prism. El acceso es a través de su propia consola con copias de seguridad almacenadas en 300 TB de almacenamiento de objetos Caringo.
“Nutanix también ofrece almacenamiento de objetos, pero no lo hicimos porque nos ocupamos de la protección de datos y no queríamos poner todos los huevos en una sola canasta”, dijo.
Helfenstein también planea invertir en el módulo opcional Nutanix que permitirá la sincronización en tiempo real entre clústeres, lo que solo ocurre a intervalos con el sistema base.