Cuatro impactos clave de la IA en el almacenamiento de datos

La inteligencia artificial (IA) es una de las tecnologías empresariales de más rápido crecimiento.

Según IBM, el 42% de las empresas con más de 1.000 empleados utilizan actualmente la IA en sus negocios. Otro 40% lo está probando o experimentando con él.

Gran parte de esa innovación está impulsada por la IA generativa (GenAI) o modelos de lenguajes grandes (LLM), como ChatGPT. Cada vez más, estas formas de IA se utilizan en aplicaciones empresariales o mediante chatbots que interactúan con los clientes.

La mayoría de los sistemas GenAI están, por ahora, basados ​​en la nube, pero los proveedores están trabajando para facilitar la integración de los LLM con los datos empresariales.

Los LLM y las formas más “convencionales” de IA y aprendizaje automático necesitan importantes recursos informáticos y de almacenamiento de datos, ya sea en las instalaciones o en la nube.

Aquí, analizamos algunos de los puntos de presión en torno al almacenamiento de datos, así como la necesidad de cumplimiento, durante las fases operativas y de capacitación de la IA.

La formación en IA impone grandes exigencias a la E/S del almacenamiento

Los modelos de IA deben entrenarse antes de su uso. Cuanto mejor sea el entrenamiento, más confiable será el modelo y, cuando se trata de entrenamiento de modelos, cuantos más datos, mejor.

“El aspecto crítico de cualquier modelo es qué tan bueno es”, dice Roy Illsley, analista jefe de práctica de centros de datos y nube en Omdia. “Esta es una adaptación del dicho: ‘Datos deficientes más un modelo perfecto equivalen a una predicción deficiente’, que lo dice todo. Los datos deben ser limpios, confiables y accesibles”.

Como resultado, la fase de capacitación es donde los proyectos de IA imponen la mayor demanda de infraestructura de TI, incluido el almacenamiento.

Pero no existe una arquitectura de almacenamiento única que admita la IA. El tipo de almacenamiento dependerá del tipo de datos.

Para modelos de lenguaje grandes, la mayor parte del entrenamiento se realiza con datos no estructurados. Por lo general, esto estará en un archivo o en un almacenamiento de objetos.

Mientras tanto, los modelos financieros utilizan datos estructurados, donde el almacenamiento en bloques es más común, y habrá proyectos de IA que utilizarán los tres tipos de almacenamiento.

Más contenido para leer:  Abu Dhabi apunta a un cambio de paradigma en la entrega de drones

Otro factor es dónde se lleva a cabo el entrenamiento del modelo. Idealmente, los datos deben estar lo más cerca posible de los recursos informáticos.

Para un modelo basado en la nube, esto hace que el almacenamiento en la nube sea la opción típica. Los cuellos de botella en E/S en una infraestructura de nube son un problema menor que la latencia sufrida al mover datos hacia o desde la nube, y los proveedores de nube a hiperescala ahora ofrecen una gama de opciones de almacenamiento de alto rendimiento.

Lo contrario también se aplica. Si los datos están en las instalaciones, como en una base de datos corporativa o un sistema de planificación de recursos empresariales, podría tener sentido utilizar la computación local para ejecutar el modelo. Esto permite a los desarrolladores de IA tener más control sobre la configuración del hardware.

Los modelos de IA hacen un uso extensivo de unidades de procesamiento de gráficos (GPU), que son costosas, por lo que es clave hacer que el almacenamiento siga el ritmo de las demandas de GPU. Sin embargo, en algunos casos, es más probable que las unidades centrales de procesamiento sean un cuello de botella que el almacenamiento. Todo se reduce al tipo de modelo, los datos con los que se entrena y la infraestructura disponible.

“Tiene que ser lo más eficiente posible”, afirma Patrick Smith, director de tecnología de campo para EMEA en Pure Storage. “Ese es el resultado final. Necesita un entorno equilibrado en términos de capacidad y rendimiento de las GPU, la red y el almacenamiento back-end”.

La forma en que una empresa planea utilizar su modelo de IA también influirá en su elección de almacenamiento local o en la nube. Cuando la fase de capacitación de la IA es de corta duración, es probable que el almacenamiento en la nube sea el más rentable y las limitaciones de rendimiento menos agudas. La empresa puede reducir el almacenamiento una vez que se completa la capacitación.

Sin embargo, si es necesario conservar los datos durante la fase operativa (para realizar ajustes o capacitación continua, o para manejar nuevos datos), entonces las ventajas de la nube bajo demanda se debilitan.

Más contenido para leer:  Cómo los líderes tecnológicos pueden aprender de Alphabet y Meta

La inferencia de IA necesita baja latencia

Una vez que se entrena un modelo, sus demandas de almacenamiento de datos deberían reducirse. Un sistema de IA de producción ejecuta consultas de usuarios o clientes a través de algoritmos ajustados, y estos pueden ser muy eficientes.

“El modelo que resulta del entrenamiento de IA es generalmente pequeño en comparación con la escala de recursos informáticos utilizados para entrenarlo, y no exige demasiado almacenamiento”, dice Christof Stührmann, director de ingeniería de nube en Taiga Cloud, parte de Northern Data. Grupo.

No obstante, el sistema todavía tiene entradas y salidas de datos. Los usuarios o aplicaciones ingresan consultas al modelo y el modelo luego proporciona sus resultados de manera similar.

En esta fase operativa o de inferencia, la IA necesita E/S de alto rendimiento para ser efectiva. El volumen de datos requerido puede ser órdenes de magnitud menor que para el entrenamiento, pero los plazos para ingresar datos y devolver consultas se pueden medir en milisegundos.

Algunos casos de uso clave de la IA, como la ciberseguridad y la detección de amenazas, la automatización de procesos de TI y el escaneo biométrico para seguridad o reconocimiento de imágenes en la fabricación, necesitan resultados rápidos.

Incluso en los campos donde se utiliza GenAI para crear chatbots que interactúan como humanos, el sistema debe ser lo suficientemente rápido para que las respuestas parezcan naturales.

Nuevamente, todo se reduce a observar el modelo y lo que el sistema de inteligencia artificial busca hacer. “Algunas aplicaciones requerirán una latencia muy baja”, afirma Illsley. “Como tal, la IA debe ubicarse lo más cerca posible del usuario y los datos podrían ser una parte muy pequeña de la aplicación. Otras aplicaciones pueden ser menos sensibles a la latencia, pero involucran grandes cantidades de datos y, por lo tanto, necesitan tener la IA ubicada cerca del almacenamiento, con la capacidad y el rendimiento necesarios”.

Gestión de datos para IA

El tercer impacto de la IA en el almacenamiento es la necesidad constante de recopilar y procesar datos.

Para la IA y el aprendizaje automático “convencionales”, los científicos de datos quieren acceder a la mayor cantidad de datos posible, basándose en que más datos generan un modelo más preciso.

Más contenido para leer:  OVHcloud debuts ‘comprehensive’ carbon calculator for customers

Esto se relaciona con el enfoque más amplio de la organización hacia la gestión de datos y almacenamiento. Las consideraciones aquí incluyen si los datos se almacenan en una memoria flash o en un disco giratorio, dónde se guardan los archivos y políticas para conservar los datos históricos.

El entrenamiento de IA y la fase de inferencia extraerán datos de toda la organización, potencialmente de múltiples aplicaciones, aportaciones humanas y sensores.

Los desarrolladores de IA han comenzado a considerar las estructuras de datos como una forma de “alimentar” los sistemas de IA, pero el rendimiento puede ser un problema. Es probable que sea necesario crear estructuras de datos en diferentes niveles de almacenamiento para equilibrar el rendimiento y el costo.

Por ahora, GenAI es un desafío menor, ya que los LLM están capacitados con datos de Internet, pero esto cambiará a medida que más empresas busquen utilizar LLM con sus propios datos.

IA, almacenamiento de datos y cumplimiento

Las empresas deben asegurarse de que sus datos de IA estén seguros y se mantengan de acuerdo con las leyes y regulaciones locales.

Esto influirá en dónde se guardan los datos, y los reguladores se preocuparán cada vez más por la soberanía de los datos. En los servicios de IA basados ​​en la nube, esto plantea la necesidad de comprender dónde se almacenan los datos durante las fases de entrenamiento e inferencia. Las organizaciones también necesitan controlar cómo almacenan las entradas y salidas del modelo.

Esto también se aplica a los modelos que se ejecutan en sistemas locales, aunque las políticas de cumplimiento y protección de datos existentes deberían cubrir la mayoría de los casos de uso de IA.

No obstante, vale la pena ser cauteloso. “Lo mejor es diseñar qué datos se incluyen en el grupo de entrenamiento para el aprendizaje de la IA y definir claramente qué datos desea y qué no desea conservar en el modelo”, dice Richard Watson-Bruhn, experto en seguridad de datos de PA Consulting. .

“Cuando las empresas utilizan una herramienta como ChatGPT, puede estar absolutamente bien que esos datos se guarden en la nube y se transfieran al extranjero, pero es necesario que existan términos contractuales que regulen este intercambio”.

Nuestro objetivo fué el mismo desde 2004, unir personas y ayudarlas en sus acciones online, siempre gratis, eficiente y sobre todo fácil!

¿Donde estamos?

Mendoza, Argentina

Nuestras Redes Sociales