Entrevista: Nvidia sobre las demandas de cargas de trabajo de IA y el rendimiento del almacenamiento

Las cargas de trabajo de inteligencia artificial (IA) son nuevas y diferentes a las que hemos visto anteriormente en la empresa. Van desde capacitación intensa en computación hasta inferencias diarias y referencias RAG que apenas afectan la entrada/salida (E/S) de la CPU y el almacenamiento.

Por lo tanto, entre los distintos géneros de carga de trabajo de IA, el perfil de E/S y los impactos en el almacenamiento pueden variar drásticamente.

En esta segunda parte de una serie de dos, hablamos con el vicepresidente y director general de DGX Systems de Nvidia, Charlie Boyle, sobre las demandas de los puntos de control en la IA, el papel de los marcadores de rendimiento del almacenamiento, como el rendimiento y la velocidad de acceso, en el trabajo de la IA, y los atributos de almacenamiento necesarios para diferentes tipos de cargas de trabajo de IA.

Retomamos la discusión posterior al chat en el primer artículo sobre los desafíos clave en datos para proyectos de IA, consejos prácticos para los clientes que inician la IA y diferencias entre los tipos de cargas de trabajo de IA, como capacitación, ajuste, inferencia, RAG y puntos de control. .

Antony Adshead: ¿Existe algún tipo de relación estándar entre las escrituras de los puntos de control y el volumen del modelo de entrenamiento?

charlie boyle: Hay. A medida que interactuamos con los clientes sobre sus propios modelos y capacitación, tenemos promedios. Porque sabremos cuánto tiempo debería tomar para el tamaño de un modelo y la cantidad de elementos de cálculo que tiene. Y luego hablamos con los clientes sobre la tolerancia al riesgo.

Algunos de nuestros investigadores realizan controles cada hora. Algún puesto de control una vez al día. Depende de lo que esperan y del tiempo que les lleve llegar al punto de control.

Y también está la cantidad de tiempo que lleva recuperarse de un punto de control. Porque podrías decir: ‘Está bien, he estado haciendo controles una vez al día’. Y en algún momento entre el día cuatro y el quinto, tuve un problema.’

Más contenido para leer:  LTE todavía tiene piernas con conexiones IoT de roaming permanente para llegar a 825 millones para 2026

Puede que no sepas que tenías un problema hasta el día seis porque el trabajo no murió, pero estás viendo los resultados y algo es extraño. Y entonces hay que retroceder un par de días hasta ese punto.

Luego se trata de: “¿Qué tan rápido me doy cuenta de que hay un problema versus qué tan lejos quiero retroceder en un punto de control?” Pero tenemos datos porque hacemos estos entrenamientos masivos, desde un entrenamiento que dura unos minutos hasta algo que dura casi un año.

Tenemos todos esos datos y podemos ayudar a los clientes a alcanzar el equilibrio adecuado. Hay tecnologías emergentes en las que estamos trabajando con nuestros socios de almacenamiento para encontrar formas de ejecutar la escritura, pero también mantener la computación en funcionamiento mientras la E/S se distribuye nuevamente a los sistemas de almacenamiento. Hay mucha tecnología emergente en ese espacio.

Adshead: Hemos hablado de capacitación y usted ha hablado de la necesidad de almacenamiento rápido. ¿Cuál es el papel del rendimiento junto con la velocidad?

boyle: Entonces, el rendimiento y la velocidad en el lado del entrenamiento están estrechamente relacionados porque debes poder cargar rápidamente. El rendimiento y el rendimiento general de lectura son casi la misma métrica para nosotros.

También hay latencia, que puede acumularse dependiendo de lo que intentes hacer. Si necesito recuperar un elemento de mi almacén de datos, entonces mi latencia es solo esa.

Pero con la IA moderna, especialmente con RAG, si le haces una pregunta a un modelo y él entiende tu pregunta pero no tiene inherentemente los datos para responderla, tiene que obtenerlos. La pregunta podría ser el clima o la cotización de las acciones o algo así. Por lo tanto, sabe cómo responder a una cotización de acciones y sabe que la fuente de verdad de la cotización de acciones son los datos de la SEC o NASDAQ. Pero en un sentido empresarial, podría ser el número de teléfono de la oficina de soporte técnico de Las Vegas.

Más contenido para leer:  Qualcomm y SSW se ponen en marcha para llegar a un acuerdo definitivo para adquirir Veoneer

Esa debería ser una transacción muy rápida. ¿Pero ese dato está en un documento? ¿Está en un sitio web? ¿Se almacena como una celda de datos?

Debería poder funcionar, boom, súper rápido y con una latencia súper baja. Pero si es una respuesta más compleja, entonces la latencia se acumula porque tiene que recuperar ese documento, analizarlo y luego enviarlo de vuelta. Es un dato pequeño, pero podría tener una latencia alta. Podría tener dos o tres capas de latencia allí.

Es por eso que para GenAI la parte de la latencia es realmente lo que esperas obtener de ella. ¿Estoy haciendo una pregunta muy compleja y estoy bien esperando un segundo? ¿Estoy preguntando algo que creo que debería ser simple? Si espero demasiado, me pregunto: ¿está funcionando el modelo de IA? ¿Necesito presionar actualizar? Ese tipo de cosas.

Y luego, relacionado con la latencia, está el modo de IA que estás buscando. Si le hago una pregunta con mi voz y espero una respuesta de voz, tiene que interpretar mi voz, convertirla en texto, convertirla en una consulta, encontrar la información, convertir esa información nuevamente en texto y tener conversión de texto a lectura de discursos para mí. Si es una respuesta corta, como “¿Cuál es la temperatura en Las Vegas?”, No quiero esperar ni medio segundo.

Pero si hago una pregunta más compleja de la que espero un par de oraciones, es posible que esté dispuesto a esperar medio segundo para que empiece a hablarme. Y luego es una cuestión de si mi latencia puede mantenerse y enviar suficiente texto al texto a voz para que suene como una respuesta natural.

Más contenido para leer:  El seguimiento invasivo es 'endémico' en sitios web de soporte sensibles

Adshead: ¿Cuál es la diferencia en términos de E/S de almacenamiento entre entrenamiento e inferencia?

boyle: Si estás construyendo un nuevo sistema de almacenamiento, son muy similares. Si está utilizando un sistema de entrenamiento de IA, necesita un dispositivo de almacenamiento rápido y moderno o algún sistema. Necesita alto rendimiento, baja latencia y alta eficiencia energética.

En el lado de la inferencia, necesitas esa misma estructura para la primera parte de la inferencia. Pero también debe asegurarse de conectarse rápidamente a los almacenes de datos de su empresa para poder recuperar esa información.

Entonces, ¿ese almacenamiento es lo suficientemente rápido? Y lo que es igualmente importante: ¿ese almacenamiento está conectado lo suficientemente rápido? Porque ese almacenamiento puede conectarse muy rápidamente a su sistema de TI más cercano, pero podría estar en un centro de datos diferente, en una ubicación diferente a mi sistema de inferencia.

Un cliente podría decir: “Aquí tengo el almacenamiento más rápido y compré el almacenamiento más rápido para mi sistema de inteligencia artificial”. Luego se dan cuenta de que están en dos edificios diferentes y TI tiene un canal de un concierto entre ellos que también hace Exchange y todo lo demás.

Por lo tanto, la red es casi tan importante como el almacenamiento para garantizar que esté diseñado y que realmente pueda obtener la información. Y eso puede significar movimiento de datos, copia de datos, inversión en nuevas tecnologías, pero también invertir para asegurarse de que su red esté ahí.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales