Podcast: El almacenamiento para IA necesita escala, nube híbrida y múltiples integraciones

En este podcast, analizamos la inteligencia artificial (IA) y el almacenamiento de datos con Grant Caley, director de soluciones de NetApp para el Reino Unido e Irlanda.

Habla de la necesidad de escalabilidad y rendimiento del almacenamiento, así como de nube híbrida, acceso a los tres hiperescaladores y la capacidad de mover, copiar y clonar datos para discutirlos antes de las ejecuciones de inferencia.

Caley también habla sobre la importancia de la integración de la interfaz de programación de aplicaciones (API), una capa de datos estandarizada que puede conectarse a Kubernetes, la integración con Python, plataformas de flujo de trabajo como Kafka y microservicios y marcos de trabajo de Nvidia como NIM y NEMO.

Antonio Adshead: Desde el punto de vista del almacenamiento, ¿qué diferencian a las cargas de trabajo de IA?

Grant Caley: Las cargas de trabajo empresariales tradicionales están bastante bien definidas en cuanto a las características de esa carga de trabajo y los requisitos para esa carga de trabajo.

Con la IA, es completamente diferente. La IA comienza siendo muy pequeña en términos de desarrollo, pero puede escalar rápidamente a instalaciones de producción de varios petabytes que abarcan no solo las instalaciones sino también la nube.

Cuando se mira desde la perspectiva de la carga de trabajo de IA, es casi completamente diferente de una especie de aplicación empresarial enfocada y aislada. Eso significa que tiene que hacer frente a diferentes requisitos de rendimiento. Las capacidades que hay que albergar para la IA desde la perspectiva de los datos van desde solo gigabytes hasta petabytes de datos, lo que presenta sus propios desafíos.

Desde la perspectiva de la carga de trabajo de IA, a menudo hay que manipular grandes conjuntos de datos, moverlos, clonarlos, copiarlos, prepararlos para limpiarlos e ingresarlos, y luego usarlos para realizar inferencias.

Hay mucho mantenimiento en torno al tipo de requisitos que también se aplican a la IA. Y otro hecho interesante es que ahora vemos que la IA no es sólo un juego local. es AWS [Amazon Web Services]Azure y Google Play también.

Los clientes están desarrollando y aprovechando todos esos entornos, así como sus centros de datos, para ofrecer IA. Y por lo que hemos visto recientemente, la IA se está convirtiendo en la propiedad intelectual de la empresa, los datos que aprovecha y los resultados que produce. La seguridad de esos datos es fundamental, ya que poder evidenciarlos, controlarlos y versionarlos, debido a algunas de las leyes que están surgiendo en torno a la IA.

Todo eso marca una gran diferencia en cómo debemos tratarlo. Y luego, en última instancia, si observa la IA en general en comparación con cualquier carga de trabajo empresarial, el flujo de trabajo real es realmente complejo y debe tenerlo en cuenta en la forma en que entrega la IA. Por lo tanto, están sucediendo muchas cosas diferentes en cuanto a las cargas de trabajo en un contexto de IA.

¿Qué necesita el almacenamiento para hacer frente a las cargas de trabajo de IA?

Caley: En cierto modo se basa en la última respuesta que di. A medida que los clientes comienzan a desarrollar IA, a menudo comienzan en la nube porque los conjuntos de herramientas están ahí (las plataformas) y no tienen que gastar mucho dinero en crear entornos. Por lo tanto, debe poder aprovechar la nube.

Pero igualmente, muchos clientes lo hacen localmente. Están construyendo una pequeña GPU [graphics processing unit] plataformas en servidores, se están desarrollando en DGX o Nvidia SuperPods más grandes y ese tipo de configuraciones.

La clave detrás de todo esto desde una perspectiva de almacenamiento son los datos que impulsan los resultados que están tratando de lograr. Ya sean las primeras etapas de desarrollo en la nube o el paso a la producción local, hasta cómo envían datos para inferenciar donde realmente se necesitan.

Podrían ser pequeñas fábricas, sitios remotos o lo que sea. Por lo tanto, la movilidad de datos desde la capa de almacenamiento es realmente clave, y eso significa que no es necesario crear silos de almacenamiento para cada uno de esos casos de uso.

Realmente hay que intentar abarcar esos casos de uso y ofrecer algo que proporcione movilidad de datos. Solíamos hablar de ofrecer una estructura de datos, pero ese tipo de interconectividad es lo realmente importante.

Creo que la otra cosa para la IA es que comienza con un rendimiento bajo cuando estás realizando tus primeras etapas de entrenamiento, pero eso puede escalar rápidamente.

Entonces, el rendimiento es un factor importante. Debe saber que el almacenamiento puede cumplir desde los requisitos pequeños hasta los requisitos de producción y escala. Y muchas empresas se olvidan de eso cuando pasan a producción. Han creado estos silos de diferentes tipos de almacenamiento, sin darse cuenta de que, en última instancia, en algún momento tendrán que ampliarlos significativamente.

Y la escala es otro factor que el almacenamiento debe cumplir. Como dije, podrían ser gigabytes al principio, pero rápidamente pueden convertirse en petabytes, particularmente a medida que las empresas reúnen conjuntos de datos para intentar maximizar el valor de la capacitación y los resultados que pueden ofrecer.

Pero, claro, el dato es la IP de la empresa.

Hay que poner eso en una infraestructura de almacenamiento que ofrezca una administración de confianza cero. [So] eso [it] ofrece cifrado de seguridad de los datos, que puede hacer, si está haciendo versiones y algún tipo de evidencia basada en [work] – esos resultados son inmutables o indelebles para que potencialmente puedas probar los datos tal como eran y las etapas por las que pasaron.

Hay muchas cosas que debes hacer. Y creo que lo último que debe ofrecer el almacenamiento de datos es que debe poder ofrecer integración en todas las herramientas que el cliente desea utilizar.

Están analizando las cargas de trabajo de Kubernetes y entregándolas a través de Kubernetes. Están considerando el uso de diferentes marcos locales en la nube. Su capa de almacenamiento, si va a ofrecer valor real, debe poder integrarse mediante API en todos esos entornos diferentes para maximizar las capacidades que se pueden ofrecer desde la propia capa de almacenamiento.

Tipos de almacenamiento

Si analizamos las formas en que se almacenan los datos para la IA (el tipo de datos, como los vectores, las necesidades de puntos de control, los marcos que se utilizan como TensorFlow y PyTorch), ¿hay algo en ellos que dicte la forma en que debemos almacenar los datos? , el tipo de almacenamiento?

Caley: Creo que hay un par de cosas. Una es que la comunidad de IA no se adhiere a muchos estándares. Cada desarrollador o científico de datos tiene su propio conjunto de herramientas que prefiere utilizar.

Sólo a medida que estas cosas escalan hasta la producción, se empiezan a imponer estándares, en términos de “Está bien, vamos a utilizar estos marcos, vamos a utilizar estas tecnologías”. Y, en consecuencia, la capa de almacenamiento que se encuentra debajo debe poder acomodarlos a todos. De lo contrario, estará comprando diferentes tipos de requisitos para diferentes tipos de clientes, diferentes tipos de casos de uso.

Absolutamente clave es el hecho de que, para empezar, el almacenamiento de datos se puede integrar en la plataforma Kubernetes. La mayoría de los resultados, como PyTorch y TensorFlow, utilizan Kubernetes para escalar su entorno, por lo que es importante integrarse en Kubernetes para poder convertir esa capacidad en una capacidad automatizada y fluida.

Pero también existen otros conjuntos de herramientas. Para muchas cosas en desarrollo que aprovechan Python, es necesario realizar una integración API en eso. Desarrollamos nuestros propios kits de herramientas para la integración de Python para facilitar la tarea a los clientes.

Pero luego están las tecnologías auxiliares en torno a la IA, como Kafka, y cómo se realizan los flujos de datos, la limpieza de datos, la limpieza de datos, el procesamiento, etc.

Todos ellos pueden beneficiarse de las ventajas que el almacenamiento puede aportar si puede integrar funciones de almacenamiento (como clonación instantánea, puntos de control instantáneos y reversiones instantáneas) en las diferentes herramientas que tienen los clientes. Necesita flexibilidad porque necesita poder ofrecer IA en las instalaciones, en el borde y en la nube.

Tener una capa de datos estandarizada como la que NetApp podría ofrecer, por ejemplo, realmente puede ayudar a reducir esa complejidad.

Se trata de la seguridad de los datos. Es casi una de las principales prioridades sobre las que nos preguntan en el ámbito de la IA, especialmente recientemente, con muchas de las legislaciones que se han planteado: ¿podemos proteger estos datos? ¿Podemos poner confianza cero? ¿Podemos hacerlo disponible y altamente disponible? Todas estas son preocupaciones que debes considerar, dependiendo de las herramientas y los marcos.

Realmente no importa qué herramientas o marcos estés utilizando. Todo este tipo de cosas son importantes. Integración en Nemo, integración en portátiles Jupyter, GPU directa con Nvidia, Python, Kubeflow, todas estas tecnologías.

Si la capa de almacenamiento puede integrarse en ellos y proporcionarles valor, eso ayudará enormemente a reducir la complejidad y proporcionará mejores resultados de comercialización para el cliente.