La startup china DeepSeek lanza Janus-Pro 7B, un modelo de IA multimodal que supera a DallE-3 en generación de imágenes. Disponible con licencia libre MIT, permite uso sin restricciones aunque con limitaciones éticas. A pesar de su capacidad para analizar textos y crear imágenes, enfrenta desafíos como la baja resolución.
La movida se cocina en el Lejano Oriente y llega para mover el tablero de la inteligencia artificial. DeepSeek, la startup china que viene pisando fuerte en territorio estadounidense y más allá, acaba de presentar su nueva joyita: Janus-Pro 7B. Este modelo de IA multimodal, según reportes de *TechCrunch*, le viene de ganar el mano a mano nada menos que al generador de imágenes DallE-3 de OpenAI. Y no se anda con chicas, porque ya está disponible para descargarse desde la plataforma de desarrollo IA Hugging Face. ¡Y con licencia MIT de software libre!, lo que significa que cualquiera puede usarlo sin tener que andar pidiendo permiso.
Janus-Pro: La nueva joya de DeepSeek
La firma de IA define a Janus-Pro 7B como un «nuevo marco autorregresivo», capaz de entender y crear imágenes al mismo tiempo. A diferencia de otros modelos «unificados», este desacopla la codificación visual para la interpretación y la generación multimodal, usando el modelo SigLIP-L como codificador y un tokenizador del conjunto LlamaGen. Una movida que le permite superar a pesos pesados como DallE-3, PixArt-alpha, Emu3-Gen y Stable Diffusion XL. Esto, en un mundo donde la IA se pone cada vez más competitiva es digno de mención.
Con la licencia MIT, los usuarios tienen vía libre para usar y modificar el código, incluso con fines comerciales, siempre y cuando no se olviden del aviso de copyright. En el universo de la IA, este es uno de los permisos más generosos que existen. Pero ojo, que Janus-Pro 7B tiene su trampa: hay que aceptar la licencia DeepSeek, que incluye restricciones éticas como la prohibición del uso militar o la generación de contenidos con intenciones de desinformación. Y es que, como diría mi abuela, «no todo lo que brilla es oro».
Un gigante con pies de barro
Es verdad, la tecnología tiene sus bemoles. Y este nuevo modelo de DeepSeek no es la excepción. Para empezar, solo puede analizar imágenes pequeñas, con una resolución máxima de 384 x 384 píxeles. Pero, considerando el tamaño de Janus-Pro 7B, su rendimiento es para sacarse el sombrero. De hecho, los resultados de algunas pruebas compartidas por la compañía en Hugging Face son bastante prometedores.
Su funcionamiento no es una cosa de otro planeta: basta con describir una foto u obra de arte, y Janus-Pro 7B se encarga de convertir esa descripción en una imagen. DeepSeek demuestra una vez más que tiene la capacidad de mejorar la tecnología ya existente, haciéndola más atractiva y funcional para sus usuarios. Esto ya lo habían demostrado con su chatbot de IA, que está causando revuelo en las tiendas de aplicaciones de EE. UU. Y no es un detalle menor, porque en la meca de la tecnología, Silicon Valley, ya se están preocupando porque esta estrella china no los termine opacando. ¿Será que estamos presenciando el inicio de una nueva era en la inteligencia artificial?