DeepSeek, una empresa china relativamente desconocida, irrumpió en el mundo de la inteligencia artificial generativa con su modelo R1. Este modelo, que competía con ChatGPT, era gratuito y de código abierto, un logro tecnológico significativo considerando las restricciones de exportación de chips en China y los menores recursos de la compañía. Un artículo publicado en *Nature* revela la clave del éxito de DeepSeek: el aprendizaje por refuerzo, una técnica innovadora que podría redefinir el futuro de la IA.
DeepSeek: ¿El David chino que desafió a los Goliat de la inteligencia artificial?
Una pequeña empresa china llamada DeepSeek sacudió el avispero de la inteligencia artificial (IA) generativa a principios de este año. Su modelo R1, de bajo perfil pero altísimo rendimiento, se codeaba con el mismísimo ChatGPT, pero con una ventaja clave: era gratuito y de código abierto. ¿Cómo lo lograron? ¿Y qué implicaciones tiene esto para el futuro de la IA?
La noticia, que resonó como un trueno en el ambiente tecnológico, ahora se ve respaldada por un artículo publicado en la prestigiosa revista Nature. El estudio detalla cómo DeepSeek, a pesar de las limitaciones de recursos y el embargo de chips impuesto a China, logró desarrollar una IA de vanguardia. La respuesta, según revelan, reside en una apuesta audaz por el "aprendizaje por refuerzo".
El aprendizaje por refuerzo: ¿la clave del éxito de DeepSeek?
La IA generativa, esa que nos fascina con textos, imágenes y videos creados a partir de nuestras instrucciones, se basa en el aprendizaje profundo (deep learning). Esta técnica, que ha ganado terreno en la última década, consiste en alimentar algoritmos con cantidades masivas de datos para que estos extraigan patrones y hagan predicciones. En esencia, la IA "aprende" de los datos.
Pero hay diferentes maneras de hacer que una IA aprenda. El aprendizaje por refuerzo, la estrategia elegida por DeepSeek, se parece a la forma en que un niño aprende a jugar un videojuego. A través de la prueba y el error, el programa aprende qué acciones dan mejores resultados, sin necesidad de instrucciones explícitas.
En contraste, la técnica más utilizada hasta ahora, el aprendizaje supervisado, implica alimentar la IA con millones de textos, hacerle preguntas y corregir sus respuestas manualmente. Un proceso tedioso y costoso, pero que hasta ahora se consideraba imprescindible.
DeepSeek, con menos recursos que los gigantes tecnológicos y con dificultades para acceder a los chips más avanzados, decidió innovar. Se enfocaron en el aprendizaje reforzado, una técnica menos explorada pero con un potencial enorme. "Demostramos que las habilidades de razonamiento de los grandes modelos de lenguaje (LLM por sus siglas inglesas) se pueden incentivar mediante técnicas de aprendizaje reforzado puro, obviando la necesidad de introducir pastillas de razonamiento etiquetadas por humanos", explican los autores del estudio.
Dicho de otra manera, DeepSeek logró que su IA aprendiera a razonar sin necesidad de ejemplos de razonamiento humano, un avance que podría cambiar las reglas del juego.
"El equipo de DeepSeek ha logrado que los LLM pueden ser incentivados para aprender a razonar sin haber sido antes expuestos a ejemplos de secuencias de razonamiento humano", observa Daphne Ippolito, profesora de la Carnegie Mellon University y experta en modelos de lenguaje natural.
¿Cómo funciona el aprendizaje por refuerzo en la práctica?
En un principio, los científicos de DeepSeek se concentraron en áreas donde era fácil establecer objetivos y recompensas numéricas, como las matemáticas o la programación. La IA tenía que obtener la máxima puntuación posible, pero no se le decía cómo lograrlo. Los resultados fueron sorprendentes. "El modelo alcanza un rendimiento superior en tareas verificables como matemáticas, competiciones de programación y campos STEM (ciencia, tecnología, ingeniería y matemáticas), superando a sus homólogos entrenados mediante aprendizaje supervisado convencional con demostraciones humanas", destaca Wenfeng Liang, científico del equipo de IA de DeepSeek.
Sin embargo, el modelo tenía sus peculiaridades. Al no haber una corrección humana constante, a veces daba respuestas extrañas, mezclando idiomas o generando textos excesivamente largos. Para solucionar esto, los investigadores introdujeron una dosis de aprendizaje supervisado, buscando un equilibrio entre respuestas correctas y comprensibles.
Esta combinación de técnicas, aplicada en el modelo R1, les permitió alcanzar un rendimiento de vanguardia en matemáticas y programación.
Destilando modelos y ahorrando recursos: la receta del éxito de DeepSeek
La apuesta por el aprendizaje reforzado no solo permitió a DeepSeek innovar, sino también ahorrar recursos. "Para conseguir que los LLM muestren cierta capacidad de razonamiento en la fase de pre-entrenamiento, hace falta una gran cantidad de recursos computacionales", señala el equipo de DeepSeek. Sin embargo, ellos demostraron que estas capacidades pueden mejorarse utilizando pocos ejemplos pero bien diseñados, o incluso utilizando prompts minimalistas.
Otra estrategia clave fue el "destilado de modelos", que consiste en aprovechar modelos de IA generativa ya existentes, en lugar de crear uno desde cero. Esto les permitió "conseguir un mayor acceso a IA poderosa a un coste energético más bajo".
¿Un futuro más autónomo y adaptable para la IA?
DeepSeek cree que su éxito con el aprendizaje reforzado puede "desbloquear niveles más altos de capacidades en los LLM, allanando el camino a modelos más autónomos y adaptables en el futuro".
Pero el trabajo de la empresa china también plantea interrogantes importantes. ¿Qué significa realmente que una IA "razone bien"? ¿Qué tipo de respuestas buscamos cuando le hacemos una pregunta compleja? ¿Debería importarnos si la forma en que la IA llega a una respuesta es incomprensible, siempre y cuando el resultado sea correcto?
"La pregunta de qué hace que un modelo razone bien es una pregunta tan filosófica como técnica", reflexiona Ippolito. Un debate que, sin duda, se intensificará a medida que la IA continúe evolucionando y desafiando nuestras concepciones sobre la inteligencia y el conocimiento.