Podcast: Almacenamiento y entrenamiento de IA, inferencia e IA agente

En este podcast, analizamos el almacenamiento y la inteligencia artificial (IA) con Jason Hardy, director de tecnología de IA de Hitachi Vantara.

Habla sobre las demandas de rendimiento en el almacenamiento que conlleva el procesamiento de IA, pero también destaca el cambio de contexto extremo que puede resultar cuando las empresas se ven obligadas a pivotar entre cargas de trabajo de capacitación e inferencia en IA.

Hardy también habla de un futuro que potencialmente incluya IA agente (IA que diseña su propio flujo de trabajo y toma decisiones por sí misma) que probablemente resultará en un aumento aún mayor en el cambio de contexto de la carga de trabajo.

Antony Adshead: ¿Qué exigencias imponen las cargas de trabajo de IA al almacenamiento de datos?

Jason Hardy: Es un problema bidimensional. Obviamente, la IA necesita velocidad, velocidad, velocidad, velocidad y más velocidad. Tener ese nivel de procesamiento, especialmente cuando se habla de crear LLM y realizar capacitación en modelos básicos, es [AI] necesita capacidades de rendimiento extremadamente altas.

Ese sigue siendo el caso y siempre será así, especialmente a medida que comenzamos a hacer muchas de estas cosas en volumen, a medida que comenzamos a tender hacia la inferencia, y RAG, y todos estos otros paradigmas que se están comenzando a introducir. . Pero la otra demanda que creo, no quiero decir que se pasa por alto, pero se le subestima, es la parte de gestión de datos.

Por ejemplo, ¿cómo sé qué datos necesito traer e introducir en mi resultado de IA sin entender qué datos tengo realmente? Y se podría decir que para eso está el lago de datos y, en realidad, el lago de datos es solo un gran vertedero en muchos casos.

Entonces, sí, necesitamos un rendimiento extremadamente alto, pero también necesitamos saber qué datos tenemos. Necesito saber qué datos son aplicables para el caso de uso al que estoy empezando a dirigirme y luego cómo puedo usarlos apropiadamente, incluso a partir de un requisito de cumplimiento, un requisito regulatorio o algo así de esos temas.

Es realmente casi este dragón de dos cabezas, de tener que tener un rendimiento extremo, pero también saber exactamente qué datos tengo disponibles, y luego tener prácticas y herramientas adecuadas de gestión de datos y cosas similares en torno a eso.

Y gran parte de esa carga, especialmente cuando miramos el lado de los datos no estructurados, es muy crítica y está integrada en algunas de estas tecnologías como el almacenamiento de objetos, donde tienes estas funciones de metadatos y cosas así, que te brindan un poco más. de esa capa descriptiva.

Más contenido para leer:  Artificial intelligence puts Microsoft Azure in top gear

Pero cuando se trata de NAS tradicional, eso es un desafío mucho mayor, pero también mucho más de dónde provienen los datos. Entonces, nuevamente, se trata de esta cuestión de doble cara: “Necesito ser extremadamente rápido, pero también necesito tener herramientas de administración de datos adecuadas”.

Funciones para casos de uso de IA

Eso me lleva muy bien a mi siguiente pregunta, que es: ¿qué características necesitan las matrices de almacenamiento de datos empresariales para los casos de uso de IA?

Resistente: Tienes toda la razón. Uno lleva al otro, donde, tal como dijimos, debemos ser extremadamente eficientes, pero también debemos ser eficientes a escala.

Si lo miras, por ejemplo… si hablamos de entrenamiento de modelos, el entrenamiento de modelos siempre se trató de: “Necesito una cantidad enorme de volumen y una gran cantidad de rendimiento para poder procesar y aprender de estos datos y pasar de allá.”

Ahora lo que estamos viendo es [that] Estamos comenzando a operacionalizar y aportar un nivel de empresa a estos resultados de IA que requiere mucho más del lado de cumplimiento y de visibilidad de datos, al mismo tiempo que somos muy eficientes.

Pero el aspecto del rendimiento también está cambiando un poco. Es decir, sí, necesito un alto rendimiento y necesito poder mejorar o ajustar constantemente estos modelos… Pero también es [that] Ahora tengo una carga de trabajo indescriptible en la que mis usuarios finales, mis aplicaciones o mis procesos comerciales están comenzando a integrarse y a crear esta carga de trabajo a nivel de inferencia.

Y la carga de trabajo a nivel de inferencia es un poco más impredecible, especialmente cuando comenzamos a entrar en el cambio de contexto. Como, “Oye, siempre necesito ajustar y mejorar mis modelos inyectando los datos más recientes, pero también necesito introducir el aumento de recuperación en esto, por lo que ahora tengo la carga de trabajo RAG asociada”.

Por lo tanto, necesito poder realizar este cambio de contexto de alto rendimiento y alto IOPS de un lado a otro, y poder respaldarlo a escala empresarial.

Pero también, a medida que se introducen nuevos datos en el ecosistema (generados a través de aplicaciones y procesos comerciales normales), necesito comprender, no necesariamente en tiempo real, pero casi en tiempo real, qué nuevos datos están disponibles para poder incorporarlos.

[That’s] siempre y cuando sean los datos correctos y tengan el envoltorio y los controles correctos y todo lo que los rodea. Dependiendo nuevamente del tipo de datos, para permitirme incorporar o mejorar mis procesos RAG o lo que sea, pero [also] cómo puedo incorporar muchos de esos datos en él.

Más contenido para leer:  Schneider Electric: Business leaders deprioritise green goals due to economic pressure

Y al mismo tiempo, también están los sistemas fuente de los que extraemos esta información. Ya sea que se trate de un entorno OLTP como SQL o algún tipo de entorno estructurado, o si se trata de un entorno no estructurado, esos sistemas fuente también deben estar equipados para poder soportar esta carga de trabajo adicional.

Necesito tener este conocimiento de los datos, pero necesito tener un rendimiento incluso fuera de lo que generalmente está disponible para la GPU directamente desde el sistema de archivos de alto rendimiento que respalda directamente la carga de trabajo de la GPU. Entonces, uno es realmente el otro, y no es un misterio, esta gran epifanía ni nada por el estilo. Estas son prácticas de datos comunes que en Vantara siempre hemos estado practicando y predicando durante mucho tiempo. [that] Los datos tienen valor.

Es necesario comprender que los datos son [using] indexación adecuada, etiquetado adecuado (nuevamente, todos esos procesos de datos) e higiene de datos adecuada. Pero también ahora, ¿cómo se hace eso a escala y con mucho rendimiento?

Necesidades de formación e inferencia.

¿En qué se diferencian las necesidades de formación e inferencia en IA cuando se trata de almacenamiento?

Resistente: Esa es una gran pregunta. Y como dije, nos hemos centrado tanto en que “nosotros” somos el mercado, me he centrado tanto en cómo construir modelos y cómo integrarlos y crear estos modelos fundamentales que pueden comenzar a revolucionar realmente la forma en que hacer negocios. Todo eso estuvo muy bien; enormes cantidades de volumen. Hitachi mismo los está creando para muchos de los mercados en los que trabajamos desde la gran perspectiva de Hitachi.

Pero ahora lo que está sucediendo es que estamos pasando de (y comenzaremos a ver esta tendencia) en 2025 y 2026… [being] exclusivamente sobre la construcción de modelos sobre cómo nos integramos y hacemos inferencias a escala.

La inferencia a escala, como dije, es muy aleatoria porque la impulsan los usuarios finales, las aplicaciones o los procesos, no de una manera predecible como, “Oye, voy a iniciar un proceso de capacitación y lo voy a evaluar”. y hacer otro proceso de entrenamiento donde esté muy reglamentado y programado de alguna manera”.

Esto se debe en cierto modo al capricho de cómo opera la empresa y casi al capricho de “Tengo una pregunta que quiero hacerle al sistema”… y luego ahora pone en marcha todos estos recursos y procesos para poder respaldar esa respuesta. carga de trabajo.

Entonces, esto se vuelve mucho más aleatorio. Además, no se trata sólo de un caso de uso. Veremos muchos casos de uso en los que la infraestructura deberá soportar todo esto simultáneamente.

Más contenido para leer:  JT recurre a Ericsson para el centro de pruebas 5G

Se trata de cargar el modelo adecuado, de tokenizar, de luego poder obtener el resultado de lo que se está interconectando y luego poder retratarlo al cliente o al consumidor, y luego la naturaleza de ida y vuelta de eso. Entonces, desde nuestra perspectiva, lo que verán aquí es que la inferencia generará un enorme nivel de carga de trabajo aleatoria que también tendrá un mayor impacto en los lados de los datos de origen, no solo en el modelo.

Entonces, nuevamente, como mencioné antes, aumento de recuperación, IA agente, cosas así.

Estos están generando todo tipo de niveles diferentes de consumo contra la plataforma de almacenamiento que está siendo impulsada específicamente por la inferencia.

La IA agente, esta nueva tendencia que está empezando a aparecer, también hará que esto sea un problema más exponencial, porque ahora, en lugar de lo tradicional, si voy a interactuar con un sistema, le hago una pregunta, un modelo. se carga, realiza su tokenización, obtengo el resultado, etc., etc. Todo ese proceso.

Bueno, ahora lo que está sucediendo es que el mismo nivel de comunicación de trabajo con el sistema se está convirtiendo no en un solo modelo, sino en muchos modelos diferentes, muchas consultas diferentes o las mismas consultas se realizan contra muchos modelos diferentes para tratar de obtener el mejor resultado. o la mejor respuesta para esa pregunta específica.

Ahora lo que está sucediendo es que esto está aumentando ese nivel exponencial de mayor carga de trabajo. Y luego, una vez hecho esto, debes reducirlo y volver a hacer tus ajustes o tu entrenamiento o cualquier otra carga de trabajo, porque no solo tienes un conjunto de recursos inactivos que simplemente van a esperar. . Ahora se utilizará constantemente para ambas partes, las cargas de trabajo de inferencia y capacitación.

Este cambio de contexto supondrá una gran carga para la plataforma de almacenamiento para poder admitir puntos de control de muy alta velocidad para que pueda detener mi ajuste o detener el entrenamiento de mi modelo y luego pasar a usar esos recursos para satisfacer al usuario final o al procesar la demanda lo más rápido posible, porque se trata de una interfaz en tiempo real.

Luego eso se reduce porque la inferencia está hecha, y luego vuelvo a girar y continúo donde lo dejé en el lado del entrenamiento y la sintonización. Entonces, ahora verán este nivel de carga de trabajo aleatorio y realmente extraño que ambos tipos de demandas impondrán a los sistemas de almacenamiento.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales