Alibaba sacude el tablero de la inteligencia artificial con Qwen2.5-Max, un modelo de lenguaje que, según la compañía, supera a DeepSeek V3 en diversas pruebas. Con un preentrenamiento de 20 billones de tokens y una arquitectura de «mezcla de expertos», este nuevo modelo promete mayor eficiencia y menor demanda computacional. Además, Alibaba pone a disposición su API para desarrolladores e incluso ofrece pruebas gratuitas a través de Qwen Chat, mostrando que la competencia en el sector de la IA está que arde.
En el siempre competitivo mundo de la tecnología, Alibaba, el gigante chino del e-commerce, acaba de lanzar un misil a la línea de flotación de la inteligencia artificial: Qwen2.5-Max, un modelo de lenguaje que, según ellos mismos afirman, deja a su competidor DeepSeek V3 comiendo polvo en pruebas de conocimiento general, programación y resolución de problemas. ¿Será para tanto? Y, más importante, ¿qué significa esto para el resto de los jugadores en esta carrera tecnológica?
La bestia de los 20 Billones de Tokens
Qwen2.5-Max no es ningún improvisado. Con un preentrenamiento de más de 20 billones de *tokens*, este modelo parece tener un arsenal de datos que haría sonrojar a la mismísima Biblioteca de Alejandría. Para condimentar aún más la receta, Alibaba usó técnicas de Ajuste Fino Supervisado (SFT) y Aprendizaje de Refuerzo a Partir de Retroalimentación Humana (RLHF). Y como si esto fuera poco, echaron mano de la arquitectura de «mezcla de expertos» (MoE), una especie de división del trabajo que permite que redes secundarias procesen tipos de datos específicos. Esto, en criollo, significa que el modelo elige el mejor «especialista» para resolver cada tipo de tarea, optimizando tanto el resultado como los recursos.
Según expertos, este enfoque MoE es el as bajo la manga para crear modelos de IA gigantes que no demanden tanta potencia de cálculo, y que se adapten mejor a diferentes tipos de datos y tareas. Esta jugada ya la había usado DeepSeek en sus últimos modelos, pero ahora Alibaba parece haberla llevado a otro nivel. «El lanzamiento de DeepSeek V3 ha llamado la atención de toda la comunidad de IA hacia los modelos MoE. Sin embargo, los investigadores y la industria tienen una experiencia limitada para llevar a gran escala este tipo de algoritmos», comentaron desde la tropa de Alibaba, lo que deja claro que aquí no hay ningún juego de niños.
¿Realmente Superior?
La gente de Alibaba no se quedó con los brazos cruzados y puso a prueba a Qwen2.5-Max con una batería de tests que harían sudar a cualquiera: MMLU-Pro (conocimiento universitario), LiveCodeBench (habilidades de programación), LiveBench (respuestas generales) y Arena-Hard (preferencias humanas). Y, según ellos, el modelo no solo superó a DeepSeek V3, sino también a otros pesos pesados como Llama-3.1-405B, Qwen2.5-72B, GPT-4o y Claude-3.5-Sonnet. Claro, las comparaciones nunca están de más, y el terreno de juego de la IA es un campo minado donde a veces las promesas no siempre se cumplen.
Lo que sí está claro es que Qwen2.5-Max no está pensado para guardarlo bajo llave. Es de código abierto, su API está a disposición de desarrolladores en Alibaba Cloud, y el público en general puede jugar con sus capacidades de forma gratuita con Qwen Chat, un bot al estilo ChatGPT. Una movida que, sin dudas, busca generar ruido y dar que hablar.
La Guerra de Precios en la Inteligencia Artificial
Pero, ¿qué hay detrás de este lanzamiento? Algunos aseguran que es una reacción al avance de DeepSeek en el último tiempo. Recordemos que esta startup china lanzó su modelo R1, una opción más económica y accesible a los algoritmos más sofisticados. DeepSeek, según dicen algunos, invirtió alrededor de 6 millones de dólares en su entrenamiento, una cifra irrisoria comparada con los más de 60 millones que Meta destinó para Llama 3.1. Y como si fuera poco, el uso de DeepSeek-R1 cuesta una trigésima parte de lo que implicaría usar OpenAI o1, según algunas fuentes. Un golpe bajo al bolsillo que no ha pasado desapercibido por nadie.
Esta situación, como era de esperar, ha desatado una guerra de precios entre los gigantes de la IA. ByteDance, por ejemplo, presentó Doubao-1.5-pro, una versión mejorada de su modelo de IA, y Alibaba Cloud anunció recortes de hasta el 97% en los precios de varios modelos. Liang Wenfeng, fundador de DeepSeek, dice que no buscan crear una guerra de precios, sino un sistema de IA general. Y aunque la competencia es buena para el consumidor, la pregunta es si se priorizará la innovación o solo una pelea por el precio. El tiempo, como siempre, dará la última palabra.