La inteligencia artificial (IA) y el aprendizaje automático (ML) prometen un cambio radical en la automatización fundamental para las TI, con aplicaciones que van desde simples chatbots hasta niveles casi impensables de complejidad, generación y control de contenidos.
El almacenamiento forma una parte clave de la IA, para suministrar datos para el entrenamiento y almacenar los volúmenes potencialmente enormes de datos generados, o durante la inferencia cuando los resultados de la IA se aplican a cargas de trabajo del mundo real.
En este artículo, analizamos las características clave de las cargas de trabajo de IA, su perfil de entrada/salida (E/S) de almacenamiento, los tipos de almacenamiento adecuados para la IA, la idoneidad del almacenamiento en la nube y de objetos para la IA, y la estrategia y los productos de los proveedores de almacenamiento. para IA.
¿Cuáles son las características clave de las cargas de trabajo de IA?
La IA y el ML se basan en el entrenamiento de un algoritmo para detectar patrones en los datos, obtener información sobre los datos y, a menudo, generar respuestas basadas en esos hallazgos. Podrían ser recomendaciones muy simples basadas en datos de ventas, como el tipo de recomendación “las personas que compraron esto también compraron”. O podrían ser el tipo de contenido complejo que vemos en grandes modelos de lenguaje (LLM) en IA generativa (GenAI) entrenados en vastos y múltiples conjuntos de datos para permitirle crear texto, imágenes y videos convincentes.
Hay tres fases clave y tipos de implementación para las cargas de trabajo de IA:
- Entrenamiento, donde el reconocimiento se incorpora al algoritmo a partir del conjunto de datos del modelo de IA, con distintos grados de supervisión humana;
- Inferencia, durante la cual los patrones identificados en la fase de entrenamiento se ponen a trabajar, ya sea en implementaciones de IA independientes y/o;
- Despliegue de IA en una aplicación o conjuntos de aplicaciones.
Dónde y cómo se entrenan y ejecutan las cargas de trabajo de IA y ML puede variar significativamente. Por un lado, pueden parecerse a ejecuciones de inferencia y entrenamiento por lotes o únicas que se asemejan al procesamiento de computación de alto rendimiento (HPC) en conjuntos de datos específicos en entornos científicos y de investigación. Por otro lado, la IA, una vez entrenada, se puede aplicar a cargas de trabajo de aplicaciones continuas, como los tipos de operaciones de ventas y marketing descritas anteriormente.
Los tipos de datos en los conjuntos de datos operativos y de entrenamiento podrían variar desde una gran cantidad de archivos pequeños en, por ejemplo, lecturas de sensores en cargas de trabajo de Internet de las cosas (IoT), hasta objetos muy grandes como archivos de imágenes y películas o lotes discretos de datos científicos. El tamaño del archivo tras la ingestión también depende de los marcos de IA en uso (vea abajo).
Los conjuntos de datos también podrían formar parte del almacenamiento de datos primario o secundario, como registros de ventas o datos almacenados en copias de seguridad, que se consideran cada vez más una fuente valiosa de información corporativa.
¿Cuáles son las características de E/S de las cargas de trabajo de IA?
El entrenamiento y la inferencia en cargas de trabajo de IA generalmente requieren un procesamiento paralelo masivo, utilizando unidades de procesamiento de gráficos (GPU) o hardware similar que descargan el procesamiento de las unidades centrales de procesamiento (CPU).
El rendimiento del procesamiento debe ser excepcional para manejar el entrenamiento y la inferencia de la IA en un período de tiempo razonable y con tantas iteraciones como sea posible para maximizar la calidad.
Potencialmente, la infraestructura también necesita poder escalarse masivamente para manejar conjuntos de datos de entrenamiento muy grandes y resultados de entrenamiento e inferencia. También requiere velocidad de E/S entre el almacenamiento y el procesamiento y, potencialmente, también poder gestionar la portabilidad de los datos entre ubicaciones para permitir el procesamiento más eficiente.
Es probable que los datos no estén estructurados y se encuentren en grandes volúmenes, en lugar de estar estructurados y en bases de datos.
¿Qué tipo de almacenamiento necesitan las cargas de trabajo de IA?
Como hemos visto, el procesamiento paralelo masivo mediante GPU es el núcleo de la infraestructura de IA. En resumen, la tarea del almacenamiento es suministrar esas GPU lo más rápido posible para garantizar que estos costosos elementos de hardware se utilicen de manera óptima.
La mayoría de las veces, eso significa almacenamiento flash para baja latencia en E/S. La capacidad requerida variará según la escala de las cargas de trabajo y la escala probable de los resultados del procesamiento de la IA, pero es probable que se trate de cientos de terabytes, incluso petabytes.
El rendimiento adecuado también es un factor, ya que los diferentes marcos de IA almacenan datos de manera diferente, como entre PyTorch (una gran cantidad de archivos más pequeños) y TensorFlow (al revés). Por lo tanto, no se trata sólo de enviar datos a las GPU rápidamente, sino también en el volumen correcto y con las capacidades de E/S adecuadas.
Recientemente, los proveedores de almacenamiento han impulsado el almacenamiento basado en flash (a menudo utilizando flash QLC de alta densidad) como un posible almacenamiento de uso general, incluso para conjuntos de datos hasta ahora considerados “secundarios”, como los datos de respaldo, porque los clientes ahora pueden querer acceder a ellos en mayor velocidad usando IA.
El almacenamiento para proyectos de IA variará desde aquel que proporciona un rendimiento muy alto durante el entrenamiento y la inferencia hasta diversas formas de retención a largo plazo porque no siempre estará claro al inicio de un proyecto de IA qué datos serán útiles.
¿El almacenamiento en la nube es bueno para las cargas de trabajo de IA?
El almacenamiento en la nube podría ser una consideración viable para los datos de cargas de trabajo de IA. La ventaja de mantener los datos en la nube aporta un elemento de portabilidad, ya que los datos se pueden “mover” más cerca de su ubicación de procesamiento.
Muchos proyectos de IA comienzan en la nube porque puedes usar las GPU durante el tiempo que las necesites. La nube no es barata, pero para implementar hardware localmente es necesario haberse comprometido con un proyecto de producción antes de que esté justificado.
Todos los proveedores clave de la nube ofrecen servicios de IA que van desde modelos previamente entrenados, interfaces de programación de aplicaciones (API) en modelos, computación AI/ML con implementación de GPU escalable (Nvidia y la propia) e infraestructura de almacenamiento escalable a múltiples petabytes.
¿El almacenamiento de objetos es bueno para las cargas de trabajo de IA?
El almacenamiento de objetos es bueno para datos no estructurados, puede escalarse masivamente, a menudo se encuentra en la nube y puede manejar casi cualquier tipo de datos como un objeto. Eso lo hace muy adecuado para las grandes cargas de trabajo de datos no estructurados que probablemente se encuentran en las aplicaciones de IA y ML.
La presencia de metadatos enriquecidos es otra ventaja del almacenamiento de objetos. Se puede buscar y leer para ayudar a encontrar y organizar los datos correctos para los modelos de entrenamiento de IA. Los datos se pueden almacenar prácticamente en cualquier lugar, incluso en la nube con comunicación a través del protocolo S3.
Pero los metadatos, a pesar de todos sus beneficios, también pueden abrumar a los controladores de almacenamiento y afectar el rendimiento. Y, si la nube es un lugar para el almacenamiento en la nube, es necesario tener en cuenta los costos de la nube a medida que se accede a los datos y se mueven.
¿Qué ofrecen los proveedores de almacenamiento para la IA?
Nvidia proporciona arquitecturas de referencia y pilas de hardware que incluyen servidores, GPU y redes. Se trata de la arquitectura de referencia DGX BasePOD y la pila de infraestructura llave en mano DGX SuperPOD, que se pueden especificar para sectores verticales de la industria.
Los proveedores de almacenamiento también se han centrado en los cuellos de botella de E/S para que los datos puedan entregarse de manera eficiente a una gran cantidad de GPU (muy costosas).
Esos esfuerzos han abarcado desde integraciones con la infraestructura de Nvidia (el actor clave en GPU y tecnología de servidor de IA) a través de microservicios como NeMo para capacitación y NIM para inferencia hasta la validación de productos de almacenamiento con infraestructura de IA y pilas completas de infraestructura de almacenamiento dirigidas a la IA.
Las iniciativas de los proveedores también se han centrado en el desarrollo de tuberías de recuperación de generación aumentada (RAG) y arquitecturas de hardware para respaldarlas. RAG valida los hallazgos del entrenamiento de IA haciendo referencia a información externa confiable, en parte para abordar las llamadas alucinaciones.
¿Qué proveedores de almacenamiento ofrecen productos validados para Nvidia DGX?
Numerosos proveedores de almacenamiento tienen productos validados con las ofertas de DGX, incluidos los siguientes.
DataDirect Networks (DDN) ofrece sus dispositivos de almacenamiento A³I AI400X2 totalmente NVMe con SuperPOD. Cada dispositivo ofrece un rendimiento de hasta 90 GBps y tres millones de IOPS.
AI Factory de Dell es una pila de hardware integrada que abarca computadoras de escritorio, portátiles y servidores PowerEdge XE9680, almacenamiento, software y servicios PowerScale F710 y está validada con la infraestructura de inteligencia artificial de Nvidia. Está disponible a través del esquema como servicio Apex de Dell.
IBM tiene Spectrum Storage para IA con Nvidia DGX. Es una solución de computación, almacenamiento y redes convergente, pero escalable por separado, validada para Nvidia BasePOD y SuperPod.
El proveedor de respaldo Cohesity anunció en el evento GTC 2024 de Nvidia que integraría los microservicios NIM de Nvidia y Nvidia AI Enterprise en su plataforma de datos multinube Gaia, que permite el uso de datos de respaldo y archivo para formar una fuente de datos de capacitación.
Hammerspace tiene la certificación GPUDirect con Nvidia. Hammerspace comercializa su NAS Hyperscale como un sistema de archivos global creado para cargas de trabajo de IA/ML y procesamiento impulsado por GPU.
Hitachi Vantara tiene su Hitachi iQ, que proporciona sistemas de inteligencia artificial específicos de la industria que utilizan GPU Nvidia DGX y HGX con el almacenamiento de la empresa.
HPE tiene sistemas empresariales y de supercomputación GenAI con componentes de Nvidia, una arquitectura de referencia RAG y planea incorporar microservicios NIM. En marzo de 2024, HPE actualizó sus matrices de almacenamiento Alletra MP para conectar el doble de servidores y cuatro veces la capacidad en el mismo espacio de rack con conectividad de 100 Gbps entre nodos de un clúster.
NetApp tiene integraciones de productos con BasePOD y SuperPOD. En GTC 2024, NetApp anunció la integración del microservicio NeMo Retriever de Nvidia, una oferta de software de RAG, con el almacenamiento en la nube híbrida para clientes de OnTap.
Pure Storage tiene AIRI, una infraestructura de inteligencia artificial basada en flash certificada con servidores DGX y Nvidia OVX y que utiliza el almacenamiento FlashBlade//S de Pure. En GTC 2024, Pure anunció que había creado una canalización RAG que utiliza microservicios basados en Nvidia NeMo con GPU de Nvidia y su almacenamiento, además de RAG para sectores verticales específicos.
Vast Data lanzó su Vast Data Platform en 2023, que combina sus subsistemas de almacenamiento de caché rápido y flash QLC con capacidades similares a las de una base de datos a nivel de E/S de almacenamiento nativo y certificación DGX.
En marzo de 2024, el fabricante de NAS de nube híbrida, Weka, anunció un dispositivo de hardware certificado para funcionar con la infraestructura del centro de datos de IA DGX SuperPod de Nvidia.