Utilice una tarjeta gráfica Nvidia como controlador RAID: esa es la idea de SupremeRAID de la startup estadounidense GRAID. Por menos de $4000, puede controlar 32 SSD NVMe y lograr un rendimiento de lectura de 110 GBps y un IOPS de 19 millones.
En comparación, la tarjeta LSI MegaRAID de Broadcom, el competidor más cercano, solo admite cuatro SSD NVMe con lecturas a un rendimiento máximo de 13,5 GBps y menos de 200 000 IOPS en lecturas.
¿La diferencia entre las dos cartas? El de Broadcom utiliza un ASIC a medida del fabricante.
“Comenzamos tratando de desarrollar una tarjeta RAID a partir de un chip especializado desde el principio, en nuestro caso un FPGA”, dijo Leander Yu, CEO de GRAID durante una presentación reciente de IT Press Tour a la publicación hermana LeMagIT de ComputerWeekly.com. “Pero nos desilusionamos rápidamente. Para obtener los 19 millones de IOPS que queríamos, nuestros FPGA habrían costado $30 000 cada uno, pero eso no tendría sentido.
“Pero RAID solo comparte el acceso entre flujos paralelos y las GPU están hechas para paralelizar un flujo de píxeles, por lo que tuvimos la idea de tomar una tarjeta gráfica simple que está disponible comercialmente por unos pocos cientos de dólares”.
Entonces, la SupremeRAID SR-1010 es en realidad solo una Nvidia RTX A2000, una tarjeta gráfica básica para estaciones de trabajo que está disponible por menos de 600 €.
“Honestamente, usamos menos del 50% de su rendimiento”, dijo Yu. “Pero luego usamos una tarjeta de nivel profesional. Los destinados al público en general no tienen la memoria para la corrección de errores y son menos fiables. No podemos tolerar la pérdida de un solo byte en casos de uso de almacenamiento”.
SupremeRAID SR-1010 es la última encarnación y se ejecuta en PCIe 4.0. Anteriormente, había una versión SR-1000 en PCIe 3.0 que logró 16 millones de IOPS de lectura y se vendió por $2500. El SR-1010 tiene un precio de $3,995.
Yu dijo que pensaba que la solución de Broadcom se desarrolló durante la era de los discos duros giratorios. Eso, dijo, los vuelve obsoletos para los SSD NVMe, que no se comunican con puertos SATA o SAS, sino que usan canales PCIe.
12 veces más rápido en escritura
El conocimiento técnico de GRAID proporciona el software para RAID 0, 1, 5, 6, 10 y codificación de borrado en GPU.
“Vendemos la solución completa, con la tarjeta”, dijo Tom Paquette, vicepresidente senior y gerente general de GRAID. “Pero también estamos en conversaciones con fabricantes de servidores y proveedores de la nube que compran grandes cantidades de tarjetas gráficas y estamos abiertos a vender potencialmente solo el software”.
En la práctica, la tarjeta solo funciona como puerta de enlace durante las escrituras, porque es en esa fase cuando toma el flujo y crea fragmentos que se escribirán en paralelo a una velocidad máxima óptima. En esta configuración, el rendimiento de las escrituras desde el punto de vista del servidor es de 12 GBps, es decir, la velocidad máxima del bus de 16 canales PCIe 4.0 mediante el cual se conecta SupremeRAID.
Durante la salida, la tarjeta se comunica con cada SSD a un rendimiento individual de 7 GBps, que se logra en un bus PCIe 4.0 cuando utiliza el máximo de cuatro canales. Pero si cuenta el rendimiento global de los SSD, eso sube a 22 GBps debido a los duplicados creados por el motor RAID.
GRAID compara su producto con “un controlador RAID de hardware de la competencia” sin citar directamente a Broadcom, que puede escribir un total de 4 GBps en los SSD.
Sin cuellos de botella durante las lecturas
Es durante las lecturas que el producto es particularmente eficiente.
“El punto clave de nuestra solución es que no comunica al servidor los datos que debe cargar”, dijo Paquette. “Le dice en qué SSD cargarlos y el servidor los lee directamente desde varios SSD en paralelo”.
Es así como se pueden lograr 110GBps en un servidor con dos CPUs Xeon 6338 de 2GHz con 32 cores cada una, dijo.
Por el contrario, el producto Broadcom sigue funcionando como puerta de enlace mientras se leen los datos del SSD.
Paquette agregó: “No estamos limitados a SSD internos. Podemos comunicarnos con un controlador NVMe-over-fabrics instalado en otra ranura PCIe que maneja SSD en un estante externo. En otras palabras, podemos, en casos extremos, proporcionar RAID para lecturas y escrituras para todos los datos en SSD internos y externos. Somos el único proveedor que ofrece RAID compatible con NVMe-over-fabrics”.
Paquette dijo que el límite de 32 SSD no se debe a la capacidad de la tarjeta Nvidia, sino al software GRAID. “Estas cifras mejorarán gradualmente con nuestras actualizaciones y las capacidades del hardware que admite las SSD”, agregó. “Pero ya está planeado que nuestro software se pueda usar con la arquitectura componible CXL”.
Velocidad de GPU aplicada a reconstrucciones de RAID
Las reconstrucciones de disco y el tiempo que tardan son un gran problema en RAID. Se llevan a cabo cuando falla una unidad y mediante la referencia de datos duplicados en los discos restantes. Normalmente, eso requiere mucha potencia de procesamiento, y es aquí donde la GPU de la tarjeta gráfica puede mostrar su potencial.
“Es muy simple: podemos reconstruir un sistema RAID en dos horas, lo que normalmente tomaría tres semanas”, dijo Paquette, sin especificar la capacidad para tal reconstrucción.
Según medidas más precisas, la tarjeta GRAID SupremeRAID permite una tasa de acceso de 5,5 millones de IOPS de lectura y 1,1 de IOPS de escritura durante las reconstrucciones. El Broadcom MegaRAID, por su parte, logra 36.000 y 18.000 IOPS, respectivamente.
Para aprendizaje automático y grabación continua de video
Entre los casos de uso citados para SupremeRAID, GRAID destaca el aprendizaje automático, donde existe una necesidad constante de almacenar grandes volúmenes de datos en la memoria. Según el proveedor, un algoritmo que suele tardar 12 horas en ejecutarse con datos almacenados en NAS y a través de NFS tardará solo dos horas con conectividad NVMe-over-ROCE y un servidor de almacenamiento suministrado con un controlador de GRAID.
Otro ejemplo es la grabación de video, con el ejemplo dado de carreras de autos y un rendimiento requerido de 10 GBps entre la cámara y el almacenamiento y que puede beneficiarse de la protección RAID 5 o 6.
“Las organizaciones compran cantidades cada vez mayores de SSD NVMe para su rendimiento, pero se encuentran en la situación paradójica en la que este rendimiento tiene un impacto en sus aplicaciones”, dijo Paquette. Esto se debe a que las CPU tienen ciclos dedicados a administrar RAID en estos SSD.
Próximamente: PCIe 5.0 y codificación de borrado
En este momento, el software SupremeRAID se está moviendo a la versión 1.3 y admite más distribuciones de Linux. También será posible instalar dos tarjetas en un servidor con fines de redundancia (pero no para duplicar el rendimiento o el número de unidades).
En 2023, el software obtendrá una GUI de administración en Windows, codificación de borrado que permitirá RAID entre varias tarjetas y soporte para PCIe 5.0 de próxima generación. Los elementos de la hoja de ruta también incluirán la compatibilidad con VMware y Kubernetes, así como la compresión, el cifrado y la deduplicación sobre la marcha.