ADeLe predice el éxito de la IA

02/04/2026 Universitat Politècnica de València

Un equipo de la Universitat Politècnica de València, perteneciente al Instituto Universitario Valenciano de Investigación en Inteligencia Artificial (VRAIN) y a ValgrAI, ha participado en el desarrollo de ADeLe, una nueva metodología que ofrece explicaciones y predicciones precisas sobre si los grandes modelos de lenguaje de la inteligencia artificial (LLMs) tendrán éxito o no en nuevas tareas específicas que todavía no han ejecutado. Además, esta metodología identifica exactamente hasta dónde llega el nivel de capacidad de razonamiento de cualquier modelo dado.

Las conclusiones de este estudio, que se publican hoy en la revista Nature, suponen un gran avance ya que las actuales metodologías solo indican cómo se comporta un modelo de IA en una prueba específica. ADeLe, con una evaluación más cognitiva, explica y predice el comportamiento de los modelos a priori, lo que permite anticipar errores antes de que las industrias lancen nuevos modelos de IA. Y, por tanto, se puede anticipar donde falla antes de descubrirlo sobre la marcha.

Con esta evaluación, más cognitiva “por primera vez, podemos anticipar con cerca de un 90% de acierto si un modelo de IA resolverá o no una tarea nueva, antes de desplegarlo. Para la industria, esto significa detectar fallos a tiempo y evitar los altos costes de lanzar un sistema que no rinde como se esperaba”, explica el investigador de VRAIN de la UPV, Fernando Martínez-Plumed.

Avance en la evaluación rigurosa de las capacidades de la IA

Dado el actual ritmo y penetración de la IA, se trata de un avance de gran relevancia para investigadores, empresas, evaluadores externos, responsables políticos y reguladores que exigían una evaluación rigurosa, escalable y estandarizada de las capacidades de la IA, incluso a la hora de realizar auditorías de seguridad.

Tal y como se indica en el artículo “hasta la fecha, la evaluación de la IA no satisface las exigencias de un ecosistema de IA en rápida evolución y cada vez más diverso. Comprender y anticipar el rendimiento se ha convertido en un requisito urgente para una amplia gama de sistemas de IA de propósito general”. Esta nueva metodología es exhaustiva y escalable, de tal manera que aborda los inconvenientes de la evaluación convencional de la IA incluida la falta de capacidad explicativa y predictiva.

18 dimensiones cognitivas

El estudio ha sido elaborado conjuntamente por el catedrático de informática e investigador de VRAIN de la UPV y miembro de la UMI de ValgrAI, José Hernández-Orallo, el profesor titular de Informática e investigador de VRAIN de la UPV, Fernando Martínez-Plumed, los doctorandos Yael Moros-Daval y Kexin Jiang-Chen, investigadora de VRAIN de la UPV y Behzad Mehrbakhsh, doctorando de ValgrAI y de VRAIN de la UPV

La clave de la nueva investigación va más allá de la medición de la precisión agregada al extraer un conjunto de dimensiones de capacidad amplias, lo que permite realizar predicciones transferibles a tareas desconocidas.

El nuevo sistema organiza el amplio abanico de tareas cognitivas a las que se enfrentan los grandes modelos de lenguaje de la IA en tan solo 18 dimensiones clave, entre las que se incluyen la atención, el razonamiento y el grado de singularidad de la tarea. Y, después, puntúa cualquier tarea del mundo real en cada una de estas dimensiones, en función de cuánto exige de esa capacidad específica. Al hacer que un modelo realice un número suficiente de estas tareas puntuadas, según su nivel de exigencia, se obtiene el perfil de capacidades.

Conclusiones clave

Mediante el uso de ADeLe, el equipo de investigación evaluó numerosas pruebas de rendimiento de IA y extrajo cuatro conclusiones clave: en primer lugar, que las pruebas de rendimiento actuales de IA no miden lo que pretenden medir, ya que a menudo evalúan otras capacidades para las que no fueron diseñadas. En segundo lugar, que los modelos de IA muestran patrones distintos de fortalezas y debilidades en diferentes capacidades, según su tamaño, metodología de razonamiento y familia de modelos. En tercer lugar, que el nuevo sistema ADeLe ofrece explicaciones y predicciones precisas sobre si los sistemas de IA tendrán éxito o fracasarán en una nueva tarea específica. Y, por último, destacan que las investigaciones contradictorias sobre si los modelos de IA son capaces de razonar tienen parcialmente razón, pero se refieren a niveles de dificultad diferentes. Algunas pruebas de rendimiento de IA actuales solo requieren una resolución básica de problemas, mientras que otras necesitan lógica avanzada, abstracción y un profundo conocimiento del dominio.

Los autores afirman en un resumen de los hallazgos que “la imagen más clara que ofrece ADeLe es la siguiente: los modelos de razonamiento (como OpenAI¿s o1 de OpenAI) muestran mejoras reales y cuantificables con respecto a los modelos estándar, no solo en lógica y matemáticas, sino también en áreas sorprendentes como comprender lo que un usuario está preguntando realmente”.

El estudio, titulado “General Scales Unlock AI Evaluation with Explanatory and Predictive Power”, ha sido elaborado conjuntamente por investigadores de la Universidad de Cambridge, la Universitat Politècnica de València, Princeton, Carnegie Mellon y William & Mary, junto con profesionales de Microsoft Research y el Centro de Automática y Robótica (CAR, CSIC-UPM), entre otras instituciones.

https://www.upv.es/noticias-upv/noticia-15736-adele-predice-es.html

Zhou, L., Pacchiardi, L., Martínez-Plumed, F. et al. General scales unlock AI evaluation with explanatory and predictive power. Nature 652, 58–67 (2026). https://doi.org/10.1038/s41586-026-10303-2

Attached files

Equipo investigador

02/04/2026 Universitat Politècnica de València

Regions: Europe, Spain, United Kingdom, North America, United States

Keywords: Applied science, Artificial Intelligence, Technology, Computing

Disclaimer: AlphaGalileo is not responsible for the accuracy of content posted to AlphaGalileo by contributing institutions or for the use of any information through the AlphaGalileo system.