Un estudio de la UNED revela que la inteligencia artificial, a pesar de sus avances, podría depender más de la memorización que del razonamiento. Al introducir una opción de respuesta «Ninguna de las anteriores» en pruebas estándar, los modelos de IA perdieron hasta un 93% de precisión, lo que pone en duda su capacidad real de «pensar».
El avance de la inteligencia artificial (IA), ¿es todo lo que aparenta? Un estudio picante, salido del horno de la Universidad Nacional de Educación a Distancia (UNED) en España, pone en duda la supuesta genialidad de estos modelos. Parece que OpenAI y compañía, con sus «cadenas privadas de pensamiento», nos estarían vendiendo buzones. ¿Será que la IA, en realidad, es más loro que Newton?
La competencia por ver quién tiene la IA más «pensante» es feroz. Los entrenan para «reflexionar» antes de responder, como si fueran panelistas de Crónica TV debatiendo sobre el dólar. Pero, según los investigadores de la UNED, esto podría ser puro verso.
## ¿Razonamiento o simple memoria?
Los *benchmarks*, esos exámenes que miden la «inteligencia» de las IA, estarían inflados. Julio Gonzalo, de la UNED, lo dice sin anestesia: «Si hay mucha presión competitiva, se presta demasiada atención a los *benchmarks*, y a las empresas les resultaría fácil y conveniente manipularlos». ¡Chan! ¿Nos están tomando el pelo?
Para desenmascarar esta movida, los investigadores hicieron un experimento simple pero efectivo: agregaron la opción «Ninguna de las anteriores» a los *benchmarks*. ¿El resultado? Los «genios» de la IA se cayeron con estrépito.
**Las pruebas se aplicaron a 16 modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés), entre los que destacan DeepSeek-R1, OpenAI o3, Gemma 2-27b, Claude-3.5, Llama 3, GPT-4 y Mistral 7B.**
## El idioma también importa… ¡y mucho!
Otro dato que sacude el avispero es el idioma. Resulta que la IA es mejor en inglés que en español, y ni hablar de lenguas menos comunes. ¿Será que los algoritmos tienen el mismo problema que los estudiantes de inglés en Argentina?
«Los resultados muestran que **todos los modelos pierden precisión de forma notable** con nuestra variación propuesta, con una caída promedio del 57% y del 50% [en dos indicadores tradicionales de referencia], y oscilando entre el 10% y el 93% según el modelo”, señalan los autores en su artículo.
Sin embargo, no todo está perdido. Los capos de la tecnología, como los de OpenAI, siguen buscando la forma de hacer que sus modelos piensen de verdad. OpenAI o3-mini, por ejemplo, logró aprobar uno de los *benchmarks* modificados. Y DeepSeek-R1-70b demostró ser el menos burro de todos en las pruebas adaptadas.
Así que, aunque la IA todavía tenga que estudiar un poco más para el examen final del razonamiento, la carrera por la inteligencia artificial real sigue en marcha. Y nosotros, desde acá, seguiremos observando con un ojo crítico y otro lleno de esperanza, porque, al final, ¿quién no quiere un robot que piense por sí mismo?