Google Cloud Platform (GCP) ha lanzado su servicio de almacenamiento de archivos paralelo administrado Parallelstore, que está dirigido a entrada/salida (E/S) intensiva para aplicaciones de inteligencia artificial (IA) y se basa en código abierto, pero desarrollado por Intel. – Arquitectura de almacenamiento de objetos asíncronos distribuidos (DAOS). Intel originalmente pretendía que DAOS fuera compatible con su memoria persistente Optane, pero esa submarca ya no existe.
DAOS, que estaba en versión preliminar privada, consiste en un sistema de archivos paralelo implementado en numerosos nodos de almacenamiento respaldados por un almacén de metadatos en memoria persistente. Replica archivos completos en la cantidad máxima de nodos para permitir el acceso paralelo con la menor latencia posible para los clientes que desarrollan aplicaciones de IA.
A pesar de la desaparición de la memoria persistente Optane, que formaba parte del espacio tecnológico de memoria de clase de almacenamiento, DAOS todavía depende de parte de la propiedad intelectual de Intel.
Entre ellos se incluye su protocolo de comunicaciones, Intel Omnipath, que es similar a Infiniband y se implementa a través de tarjetas Intel en nodos informáticos. Estos interrogan a los servidores de metadatos para encontrar la ubicación de un archivo durante las operaciones de lectura/escritura y luego se comunican con el nodo en modo de bloque a través de RDMA sobre Ethernet convergente (RoCE).
Saturar el ancho de banda del servidor
“Esta entrega eficiente de datos maximiza el buen rendimiento de las GPU [graphics processing units] y TPU [tensor processing units]un factor crítico para optimizar los costos de la carga de trabajo de IA”, dijo el director de producto de GCP, Barak Epstein, en una publicación de blog. “Parallelstore también puede proporcionar acceso continuo de lectura/escritura a miles de máquinas virtuales [virtual machines]GPU y TPU, que satisfacen los requisitos de cargas de trabajo informáticas de alto rendimiento y de IA de modestas a masivas”.
Añadió que para la implementación máxima de Parallelstore de 100 TB (terabytes), el rendimiento puede escalar a alrededor de 115 GBps, tres millones de IOPS de lectura, un millón de IOPS de escritura y una latencia mínima de casi 0,3 milisegundos.
“Esto significa que Parallelstore también es una buena plataforma para archivos pequeños y acceso aleatorio distribuido entre una gran cantidad de clientes”, dijo Epstein.
Según Epstein, los tiempos de entrenamiento del modelo de IA se pueden acelerar casi cuatro veces en comparación con otros cargadores de datos de aprendizaje automático.
La idea de GCP es que los clientes primero coloquen sus datos en Google Cloud Storage, que se puede utilizar para todos los casos de uso en GCP y en aplicaciones de software como servicio a través de máquinas virtuales. Esa parte del proceso permitiría al cliente seleccionar datos adecuados para el procesamiento de IA a través de Parallelstore entre todos sus datos. Para ayudar aquí, GCP ofrece su servicio Storage Insights Dataset, parte de su oferta Gemini AI, para ayudar a los clientes a evaluar sus datos.
Una vez que los datos se seleccionan como datos de entrenamiento, su transferencia a Parallelstore puede realizarse a 20 GBps. Si los archivos son pequeños (menos de 32 MB, por ejemplo), es posible alcanzar una velocidad de transferencia de 5000 archivos por segundo.
Más allá de los casos de uso de capacitación de IA a los que se dirige GCP, Parallelstore también será accesible para los clústeres de Kubernetes, como a través de Google Container Engine (GKE) de GCP, a través de controladores CSI dedicados. En la práctica, los administradores podrán administrar el volumen de Parallelstore como cualquier otro almacenamiento adjunto a GKE.
DAOS es un sistema de almacenamiento de objetos de esfuerzo de código abierto que desacopla los planos de control y datos y al mismo tiempo segrega metadatos de E/S e indexa cargas de trabajo del almacenamiento masivo.
DAOS almacena metadatos en memoria rápida y persistente y datos masivos en unidades de estado sólido (SSD) de memoria no volátil rápida (NVMe). Según Intel, el rendimiento de E/S de lectura/escritura de DAOS escala casi linealmente con un número cada vez mayor de solicitudes de E/S de clientes (hasta aproximadamente 32 a 64 clientes remotos) para que sea adecuado para la nube y otros entornos compartidos.