Solo dos meses después de que el Modelo AI Deepseek-R1 de Deepseek-R1 volcó, Alibaba Cloud, ha introducido QWQ-32B, un modelo de lenguaje grande de código abierto (LLM).
El gigante de la nube chino describe el nuevo modelo como “un modelo de razonamiento compacto” que utiliza solo 32 mil millones de parámetros, pero es capaz de ofrecer un rendimiento comparable a otros modelos de IA de lenguaje grande que usan mayores números de parámetros.
En su sitio web, Alibaba Cloud publicó puntos de referencia de rendimiento que sugieren que el nuevo modelo es comparable a los modelos de IA de Deepseek y OpenAI. Estos puntos de referencia incluyen AIME 24 (razonamiento matemático), Live CodeBench (Competencia de codificación), LiveBench (Conjunto de prueba de contaminación y evaluación objetiva), Ifeval (capacidad de seguimiento de instrucciones) y BFCL (capacidades de llamada de herramientas y funciones).
Mediante el uso de la escala continua de aprendizaje reforzado (RL), Alibaba afirmó que el modelo QWQ-32B demuestra mejoras significativas en el razonamiento matemático y la competencia de codificación.
En una publicación de blog, la compañía dijo que QWQ-32B, que utiliza 32 mil millones de parámetros, logra un rendimiento comparable a Deepseek-R1, que utiliza 671 mil millones de parámetros. Alibaba dijo que esto muestra la efectividad de RL cuando se aplica a los modelos de fundaciones robustos previamente en un amplio conocimiento mundial.
“Tenemos capacidades integradas relacionadas con el agente en el modelo de razonamiento, lo que permite pensar críticamente mientras utiliza herramientas y adaptando su razonamiento basado en la retroalimentación ambiental”, dijo Alibaba en la publicación del blog.
Alibaba dijo que QWQ-32B demuestra la efectividad del uso de Aprendizaje de refuerzo (RL) para mejorar las capacidades de razonamiento. Con este enfoque para la capacitación de IA, un agente de IA de aprendizaje de refuerzo puede percibir e interpretar su entorno, así como tomar medidas y aprender a través de pruebas y errores. El aprendizaje de refuerzo es uno de los varios enfoques que los desarrolladores usan para entrenar sistemas de aprendizaje automático. Alibaba usó RL para hacer que su modelo sea más eficiente.
“No solo hemos sido testigos del inmenso potencial de RL escalado, sino que también reconocimos las posibilidades sin explotar dentro de los modelos lingüísticos previos a la aparición”, dijo Alibaba. “A medida que trabajamos para desarrollar la próxima generación de Qwen, confiamos en que combinar modelos de base más fuertes con RL impulsado por recursos computacionales escalados nos impulsará más cerca de lograr la inteligencia general artificial [AGI]. “
Alibaba dijo que está explorando activamente la integración de agentes con RL para permitir lo que describe como “razonamiento de horizonte largo” que, según Alibaba, eventualmente conducirá a una mayor inteligencia con la escala de tiempo de inferencia.
El modelo QWQ-32B fue entrenado utilizando recompensas de un modelo de recompensa general y verificadores basados en reglas, mejorando sus capacidades generales. Según Alibaba, estos incluyen un mejor seguimiento de la instrucción, la alineación con las preferencias humanas y el mejor rendimiento del agente.
Deepseek de China, que ha estado generalmente disponible desde el comienzo del año, demuestra la efectividad de RL en su capacidad para ofrecer resultados de referencia comparables en comparación con los modelos de idiomas grandes rivales de EE. UU. Su R1 LLM puede rivalizar con la inteligencia artificial estadounidense sin la necesidad de recurrir al último hardware de GPU.
El hecho de que el modelo QWQ-32B de Alibaba también use RL no es una coincidencia. Estados Unidos ha prohibido la exportación de chips de acelerador de IA de alta gama, como el procesador de gráficos NVIDIA H100, a China, lo que significa que los desarrolladores de IA chinos han tenido que considerar enfoques alternativos para hacer que sus modelos funcionen. El uso de RL parece ofrecer resultados de referencia comparables en comparación con lo que los modelos como los de OpenAI pueden lograr.
Lo interesante del modelo QWQ-32B es que utiliza significativamente menos parámetros para lograr resultados similares a Deepseek, lo que efectivamente significa que debería poder ejecutarse en hardware de aceleración de IA menos potente.