En medio de una batalla campal por la supremacía en la inteligencia artificial, Elon Musk y Sam Altman se tiran flores (y palos) sobre sus últimas creaciones, Grok 3 y GPT-4.5 respectivamente. Un estudio español destapa las trampas de los «benchmarks», revelando que estas IAs son más «súpercuñados» que cerebritos. La investigación demuestra que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalización escasa
En el ring de la inteligencia artificial, la pelea es a puro golpe de declaración marketinera. Mientras Elon Musk, cual promotor de boxeo, vocifera que "Grok 3 es la IA más inteligente del mundo", Sam Altman, desde la esquina de OpenAI, desliza que GPT-4.5 es "una experiencia más cercana a una IA con sentido común". ¿Será que la realidad supera a la ficción, o estamos ante una sobredosis de autobombo?
Lo cierto es que, en esta carrera desenfrenada por captar la atención de inversores y usuarios, los benchmarks –esos exámenes que miden la capacidad de las IAs– se han convertido en un campo de batalla en sí mismo. Pero, ¿qué tan confiables son estas pruebas?
¿Truco o trato? El lado oscuro de los benchmarks
Julio Gonzalo, catedrático de la UNED, lanza una bomba: "Los números de Grok 3 en su lanzamiento son un ejemplo perfecto de los problemas de la evaluación actual". Y es que, según este experto, la presión competitiva es tal que las empresas podrían estar "manipulando" los benchmarks para inflar los resultados. ¡Chan!
Junto a otros investigadores españoles, Gonzalo ha puesto a prueba la eficacia de estos tests con un método tan sencillo como revelador: cambiar la respuesta correcta por una trampa que obliga a la IA a razonar en lugar de simplemente buscar en su base de datos.
El resultado es demoledor: "En su primera fase de entrenamiento, en la que aprenden el lenguaje, el procedimiento es de pesca de arrastre: se leen, esencialmente, todo el contenido online". En otras palabras, estas IAs son como esos estudiantes que aprueban memorizando, pero que no entienden ni jota de lo que están diciendo.
Kriptonita para la inteligencia artificial
¿Cómo lograron desmascarar a las IAs tramposas? Sustituyeron la respuesta correcta por un señuelo: "Ninguna de las otras". Con este simple cambio, obligaron a los modelos a entender la pregunta y razonar, en lugar de buscar la respuesta más probable en su memoria.
"La respuesta acertada tiene un vocabulario completamente desconectado de la pregunta, lo que le obliga a razonar sobre cada una de las otras respuestas posibles y descartarlas, es una variación mucho más exigente", explica Gonzalo. "Es verdadera kriptonita para los modelos", añade.
Los resultados, publicados en un artículo científico, son contundentes: "Los resultados muestran que todos los modelos pierden precisión de forma notable con nuestra variación propuesta, con una caída promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10 % y el 93 % según el modelo".
¿El fin de la inteligencia o solo un espejismo?
Que no cunda el pánico. Este estudio no implica que las IAs sean inútiles, pero sí revela que su capacidad de razonamiento estaba inflada y que la evolución es más lenta de lo que nos quieren hacer creer.
"Nuestros resultados demuestran que los chatbots, en general, siguen aplicando un tipo de razonamiento intuitivo y tienen una capacidad de generalización escasa", sentencia Gonzalo. "En otras palabras, siguen contestando de oídas, intuitivamente, y siguen siendo, en esencia, súpercuñados que lo han leído todo, pero no han asimilado nada".
El debate sobre las limitaciones de los benchmarks no es nuevo. El propio Ethan Mollick, un reconocido divulgador sobre IA, ha pedido tests más fiables que vayan más allá de la simple memorización.
Pero la cosa no termina ahí. Los investigadores también han detectado diferencias significativas entre el rendimiento de las IAs en inglés y en español. "Hemos detectado una tendencia muy clara: cuanto peor es el modelo (en general, cuando son cerebros artificiales con menos neuronas), más se nota la diferencia entre español y inglés", explica Gonzalo.
Esto significa que los modelos más pequeños, que podrían instalarse localmente para garantizar la privacidad de los datos, funcionan mucho peor en español que los gigantes como ChatGPT o Claude.
En definitiva, la inteligencia artificial sigue siendo un campo en constante evolución. Si bien los modelos de lenguaje puro parecen tener un límite, los nuevos modelos de razonamiento prometen superar estas limitaciones. La pregunta es: ¿estamos preparados para este avance, o seguiremos dejándonos deslumbrar por el marketing y los benchmarks inflados?