Hasta ahora, los líderes de TI han necesitado considerar los riesgos de seguridad cibernética planteados al permitir a los usuarios acceder a modelos de idiomas grandes (LLM) como ChatGPT directamente a través de la nube. La alternativa ha sido utilizar LLM de código abierto que se pueden alojar en las instalaciones o acceder a través de una nube privada.
El modelo de inteligencia artificial (IA) debe ejecutarse en la memoria y, al usar unidades de procesamiento de gráficos (GPU) para la aceleración de IA, esto significa modelo.
La GPU de aceleración de IA de alta gama de NVIDIA, la H100, está configurada con 80 Gbytes de memoria de acceso aleatorio (RAM), y su especificación muestra que está clasificada en 350W en términos de uso de energía.
Deepseek de China ha podido demostrar que su R1 LLM puede rivalizar con la IA de los Estados Unidos sin la necesidad de recurrir al último hardware de GPU. Sin embargo, se beneficia de la aceleración de AI basada en GPU.
Sin embargo, la implementación de una versión privada de Deepseek todavía requiere una inversión de hardware significativa. Para ejecutar todo el modelo Deepseek-R1, que tiene 671 mil millones de parámetros en memoria, requiere 768 gbytes de memoria. Con las GPU NVIDIA H100, que están configuradas con 80 gbytes de tarjeta de memoria de video cada una, se requeriría 10 para garantizar que todo el modelo Deepseek-R1 pueda ejecutarse en memoria.
Es posible que los líderes de TI puedan negociar descuentos en volumen, pero el costo del hardware de aceleración de IA para ejecutar Deepseek es de alrededor de $ 250,000.
Se pueden usar GPU menos potentes, lo que puede ayudar a reducir esta cifra. Pero dados los precios actuales de la GPU, un servidor capaz de ejecutar el modelo completo de 670 mil millones de parámetros Deepseek-R1 en memoria costará más de $ 100,000.
El servidor podría ejecutarse en infraestructura de nube pública. Azure, por ejemplo, ofrece acceso al NVIDIA H100 con 900 gbytes de memoria por $ 27.167 por hora, que, en papel, deberían poder ejecutar fácilmente el modelo de 671 mil millones de paramétricos Deepseek-R1 completamente en la memoria.
Si este modelo se usa todos los días laborales y asume una semana de 35 horas y cuatro semanas al año de vacaciones y tiempo de inactividad, la factura anual de Azure sería de casi $ 46,000 al año. Una vez más, esta cifra podría reducirse significativamente a $ 16.63 por hora ($ 23,000) por año si hay un compromiso de tres años.
Las GPU menos poderosas costarán claramente menos, pero son los costos de memoria los que los hacen prohibitivos. Por ejemplo, al observar el precio actual de Google Cloud, la GPU NVIDIA T4 tiene un precio de $ 0.35 por GPU por hora, y está disponible con hasta cuatro GPU, lo que da un total de 64 gbytes de memoria por $ 1.40 por hora, y se necesitarían 12 Para adaptarse al modelo Deepseek-R1 671 mil millones de parámetros completamente en la memoria, que funciona a $ 16.80 por hora. Con un compromiso de tres años, esta cifra se reduce a $ 7.68, lo que funciona con poco menos de $ 13,000 por año.
Un enfoque más barato
Los líderes de TI pueden reducir aún más los costos evitando las GPU costosas por completo y depender completamente de las unidades de procesamiento central de uso general (CPU). Esta configuración solo es adecuada cuando Deepseek-R1 se usa exclusivamente para la inferencia de IA.
Un tweet reciente de Matthew Carrigan, ingeniero de aprendizaje automático de Hugging Face, sugiere que dicho sistema podría construirse utilizando dos procesadores de servidores EPYC AMD y 768 Gbytes de memoria rápida. El sistema que presentó en una serie de tweets podría reunirse por aproximadamente $ 6,000.
En respuesta a los comentarios sobre la configuración, Carrigan dijo que puede lograr una tasa de procesamiento de seis a ocho tokens por segundo, dependiendo del procesador específico y la velocidad de memoria que se instala. También depende de la longitud de la consulta del lenguaje natural, pero su tweet incluye un video que muestra la consulta de tiempo casi real de Deepseek-R1 en el hardware que construyó en base a la configuración de Dual AMD EPYC y 768 Gbytes de Memoria.
Carrigan reconoce que las GPU ganarán a la velocidad, pero son caros. En su serie de tweets, señala que la cantidad de memoria instalada tiene un impacto directo en el rendimiento. Esto se debe a la forma en que Deepseek “recuerda” consultas anteriores para llegar a las respuestas más rápido. La técnica se llama almacenamiento en caché del valor clave (KV).
“En las pruebas con contextos más largos, el caché de KV es en realidad más grande de lo que me di cuenta”, dijo, y sugirió que la configuración de hardware requeriría 1 tbytes de memoria en lugar de 76 Gbytes, cuando se pegan grandes volúmenes de texto o contexto en el Deepseek-R1 Información de consulta.
Es probable que comprar un servidor Dell, HPE o Lenovo prebuilt para hacer algo similar sea considerablemente más costoso, dependiendo del procesador y las configuraciones de memoria especificadas.
Una forma diferente de abordar los costos de memoria
Entre los enfoques que se pueden tomar para reducir los costos de memoria es utilizar múltiples niveles de memoria controlados por un chip personalizado. Esto es lo que Sambanova de California ha hecho utilizando su unidad de flujo de datos reconfigurable SN40L (RDU) y una arquitectura de flujo de datos patentado para la memoria de tres niveles.
“Deepseek-R1 es uno de los modelos de IA fronterizos más avanzados disponibles, pero su potencial completo ha estado limitado por la ineficiencia de las GPU”, dijo Rodrigo Liang, CEO de Sambanova.
La compañía, fundada en 2017 por un grupo de ex ingenieros de Sun/Oracle y tiene una colaboración continua con el Departamento de Ingeniería Eléctrica de la Universidad de Stanford, afirma que el chip RDU colapsa los requisitos de hardware para ejecutar Deepseek-R1 de manera eficiente desde 40 Racks hasta uno Rack configurado con 16 RDU.
A principios de este mes, en la conferencia Leap 2025 en Riad, Sambanova firmó un acuerdo para presentar la primera plataforma de nube soberana de Arabia Saudita en el servicio. Saud Alsheraihi, vicepresidente de soluciones digitales en Saudi Telecom Company, dijo: “Esta colaboración con Sambanova marca un hito significativo en nuestro viaje para empoderar a las empresas sauditas con capacidades de IA soberana. Al ofrecer una plataforma segura y escalable de inferencia como servicio, estamos permitiendo a las organizaciones desbloquear todo el potencial de sus datos mientras mantenemos el control completo ”.
Este acuerdo con el proveedor de telecomunicaciones de Arabia Saudita ilustra cómo los gobiernos deben considerar todas las opciones al construir la capacidad soberana de IA. Deepseek demostró que existen enfoques alternativos que pueden ser tan efectivos como el método probado y probado para implementar matrices inmensas y costosas de GPU.
Y aunque realmente funciona mejor, cuando está presente hardware de IA acelerado por GPU, lo que Sambanova afirma es que también hay una forma alternativa de lograr el mismo rendimiento para ejecutar modelos como Deepseek-R1 en la mitad, en la memoria, sin Los costos de tener que adquirir GPU equipados con la memoria que necesita el modelo.