IBM ha presentado un nuevo procesador, con nombre en código Telum, que dice acelerará el procesamiento de inteligencia artificial (IA) en sus mainframes de la serie Z. Desarrollado durante los últimos tres años por el Centro de investigación de hardware de inteligencia artificial de IBM, el chip contiene ocho núcleos de procesador con una secuencia de instrucciones desordenada súper escalar profunda, que se ejecuta con una frecuencia de reloj de más de 5 GHz. IBM dijo que Telum está optimizado para las demandas de cargas de trabajo heterogéneas de clase empresarial.
Telum utiliza un caché rediseñado y una infraestructura de interconexión de chips, que ahora proporciona 32 MB de caché por núcleo y puede escalar a 32 chips Telum. El diseño del módulo de doble chip contiene 22 mil millones de transistores y 19 millas de cable en 17 capas de metal.
Debido a los requisitos de latencia, la detección compleja de fraudes a menudo no se puede completar en tiempo real, lo que significa que un mal actor ya podría haber comprado bienes con una tarjeta de crédito robada antes de que el minorista se dé cuenta de que se ha producido un fraude. Telum es el primer procesador de IBM que contiene aceleración en chip para la inferencia de IA mientras se realiza una transacción.
Christian Jacobi, arquitecto jefe de IBM para procesadores Z, dijo que IBM quería brindar a sus clientes de banca, finanzas y seguros la capacidad de ejecutar IA en tiempo real a un volumen de transacciones de 10,000 a 50,000 transacciones por segundo. “Está construido para inferencia en transacciones y diseñado utilizando un núcleo de IA del centro de investigación de IA de IBM”, dijo. “Trabajamos con el equipo de Z para que sea accesible para hacer frente a transacciones elevadas”.
La aceleración se proporciona a través de una nueva instrucción, que se programa en el núcleo del procesador Z, dijo Jacobi. “No hay intervención del sistema operativo”.
A diferencia de la aceleración de IA basada en GPU, dijo, “no es necesario enviar datos a través de un bus PCI, lo que aumenta la latencia”.
Según Jacobi, el nuevo chip acelerador de IA está optimizado para proporcionar acceso directo a la memoria donde se almacenan los datos. Cuando no se utiliza para el procesamiento de IA, Telum puede cambiar para ejecutar funciones de procesamiento normales, dijo.
IBM dijo que a nivel de socket, los nuevos chips ofrecerán un aumento del 40% en el rendimiento en comparación con el sistema Z15, y Jacobi dijo que IBM planea desarrollar una mayor optimización en la pila de software.
“Hay capas de código involucradas en la entrega de la solución completa”, dijo. “Comienza con el silicio y el firmware que se ejecuta en los núcleos del procesador y el acelerador de IA. Este firmware implementa varias operaciones, como ‘Multiplicación de matrices’. Además de eso, se ejecuta el sistema operativo y el software de marco de inteligencia artificial, explotando la nueva instrucción de asistencia de procesamiento de red neuronal que es la vista a nivel de software en el acelerador en chip.
“Con este enfoque, los clientes pueden crear modelos de IA en cualquier lugar, en IBM Z, IBM Power u otros sistemas de su elección, y luego exportar esos modelos a Open Neural Network Exchange. [ONNX] formato. Luego, el compilador de IBM Deep Learning compilará y optimizará los modelos ONNX para su implementación en IBM Z. Los modelos compilados luego se ejecutarán en Telum, explotando directamente el acelerador de IA de Telum a través de esa pila de hardware / firmware / software “.