Cern: Desafíos de la gestión de centros de datos GPU

A principios de marzo, Cern, la organización europea para la investigación nuclear, recibió el premio al mejor usuario final de la Cloud Native Computing Foundation (CNCF) durante el evento KubeCon y CloudNativeCon en París.

Cern ha sido un usuario importante de Kubernetes y ha investigado cómo las unidades de procesamiento de gráficos (GPU) se pueden administrar de manera efectiva en entornos locales.

Las GPU se han convertido en el estándar de facto para ejecutar cargas de trabajo de inteligencia artificial (IA). CNCF aprovechó la conferencia de París para lanzar un grupo de trabajo sobre IA nativa en la nube. Entre los avances que se han producido en la computación nativa de la nube se encuentra que Kubernetes Scheduler ha evolucionado para integrar y admitir el uso compartido de GPU.

El hardware básico y las mejoras de rendimiento cada vez mayores que ofrecen las GPU significa que las personas que trabajan en el laboratorio del acelerador de partículas del Cern están considerando la viabilidad de utilizar hardware básico impulsado con GPU para ejecutar el aprendizaje automático. Estos son capaces de reemplazar el hardware personalizado utilizado en los detectores del acelerador.

Ricardo Rocha, ingeniero informático del Cern, se dirigió a los delegados en el evento y dijo: “No sé cuántas personas ejecutan infraestructura local o simplemente dependen de proveedores de nube externos, pero el primer desafío que tenemos es que el patrón de uso del hardware es muy diferente de la CPU tradicional [central processing unit] cargas de trabajo”.

Según su experiencia, los requisitos de energía y refrigeración de los centros de datos aumentan drásticamente cuando se utilizan GPU. De hecho, las personas que solicitan infraestructura de TI para ejecutar estas nuevas cargas de trabajo en el Cern también están utilizando recursos informáticos que tradicionalmente estaban asociados con HPC, como la necesidad de interconexiones de red rápidas como Infiniband para conectar grupos de GPU.

Rocha dijo que la oportunidad de utilizar GPU llega en un momento en que el Cern está ampliando la vida útil del hardware de cinco a ocho años. “La gente quiere tener GPU nuevas y sofisticadas, pero, por nuestra parte, son extremadamente caras”, dijo. “Queremos que duren más, mientras que la gente quiere tener una respuesta mucho más rápida porque eso es lo que les ofrecen los proveedores de nube pública”. Esto significa que el equipo de TI de Cern tiene la tarea de ofrecer lo mejor de la infraestructura interna y al mismo tiempo ser capaz de admitir casos de uso más avanzados.

Durante su presentación, Rocha discutió la necesidad de proporcionar una plataforma para democratizar la IA y ofrecer a los investigadores la posibilidad de acceder a los recursos de GPU que el Cern tiene disponibles.

Habló de la importancia de comprender los diferentes tipos de cargas de trabajo de GPU y patrones de uso. Algunos son interactivos y normalmente requieren menor potencia computacional y uso de GPU, mientras que otros son mucho más predecibles y se ejecutan en modo por lotes. Rocha también dijo que la gestión de estas cargas de trabajo predecibles se basa en las mejores prácticas de HPC, como las colas y la programación para hacer el mejor uso de los recursos de TI disponibles.

“Cuando agregas GPU [into the datacentre]”La principal lección es ser lo más flexible posible en términos de la infraestructura que se puede soportar”, afirmó.

Esto significa desarrollar la capacidad de ejecutar múltiples clústeres y cargas de trabajo híbridas. “Si puedes conseguir GPU, complétalas con recursos externos”, dijo Rocha. “Esto es realmente importante y es una decisión de diseño que debe tomarse desde el principio”.

Exit mobile version