Avances en inteligencia artificial: ¿Menos significativos de lo que aparentan?
Un reciente estudio de investigadores de la Universidad Nacional de Educación a Distancia (UNED), en España, plantea una inquietante conclusión sobre los modelos de inteligencia artificial (IA) más avanzados, como OpenAI o3-mini y DeepSeek R-1. Según el informe, las capacidades de estos sistemas dependen más de la memorización que del razonamiento genuino, lo que cuestiona la efectividad real de estos modelos en situaciones que requieren un juicio más complejo.
La comunidad tecnológica ha centrado su atención en el desarrollo de sistemas de IA que demuestren habilidades de razonamiento. Modelos como los mencionados han sido entrenados para responder a solicitudes utilizando “cadenas privadas de pensamiento”, un procedimiento que les permite reflexionar antes de generar una respuesta. Sin embargo, los investigadores de la UNED advierten que este método puede no ser tan avanzado como se proclama.
La industria afirma que la capacidad de los modelos de IA para evaluar y cuantificar su rendimiento se mide a través de pruebas de referencia conocidas como benchmarks. Sin embargo, la autenticidad de estas métricas está siendo cuestionada. Julio Gonzalo, uno de los autores del estudio, expresa que “si hay mucha presión competitiva, se presta demasiada atención a los benchmarks”, sugiriendo que las empresas podrían manipular los resultados a su favor, lo que lleva a dudas sobre su fiabilidad.
Un análisis innovador pone a prueba la efectividad de los benchmarks
Para poner a prueba la efectividad de estos benchmarks, el equipo de investigación de la UNED diseñó un experimento innovador. Modificaron los tests tradicionales introduciendo una opción de respuesta genérica “Ninguna de las anteriores”, forzando así a los modelos a razonar en lugar de simplemente identificar respuestas basadas en patrones memorizados. Este enfoque tuvo implicaciones significativas para entender las verdaderas capacidades de los sistemas de IA.
Los resultados fueron sorprendentes: la mayoría de los modelos de lenguaje de gran tamaño (LLM) evaluados, incluyendo el GPT-4 y Claude-3.5, mostraron una notable caída en precisión, con una disminución promedio del 57%. Estas cifras sugieren que, aunque los modelos son promocionados como avanzados, su rendimiento real puede estar sobrestimado y no coincide con sus capacidades de razonamiento.
Además, el estudio reveló que el idioma también influye en la efectividad de los modelos. Las pruebas en inglés continúan mostrando mejores resultados, mientras que el rendimiento se deteriora al utilizar el español y más aún con lenguas menos comunes. Esta limitación se acentúa en modelos con estructuras de procesamiento neuronal reducidas, destacando una falta de adaptabilidad en diversas lenguas.
A pesar de estas limitaciones, los desarrolladores del sector están en la búsqueda constante de nuevas técnicas para mejorar el razonamiento de sus modelos de IA. Un ejemplo notable es OpenAI o3-mini, el único modelo que logró superar uno de los benchmarks, a pesar de que también mostró una pérdida de precisión con la modificación de los tests. Por otro lado, DeepSeek-R1-70b destacó por su menor caída en rendimiento en las evaluaciones adaptadas.
En conclusión, el estudio de la UNED presenta un llamado a la reflexión sobre las verdaderas capacidades de los sistemas de inteligencia artificial y plantea importantes preguntas sobre la fiabilidad de los benchmarks utilizados en la industria. Aunque los desarrolladores continúan buscando mejorar el razonamiento de sus modelos, es crucial entender que la memorización puede estar en el centro de estas tecnologías. Esta situación invita a la comunidad tecnológica a cuestionar y revaluar la dirección en la que se desarrollan las IA, promoviendo una mayor transparencia y fiabilidad en las métricas utilizadas para evaluar su rendimiento.