Imagen de cabecera retocada con Editasteic Editasteic

Estudio encuentra que muchas pruebas no miden lo que deberían

Las empresas de IA promocionan regularmente el rendimiento de sus modelos en pruebas de benchmark como una señal de superioridad tecnológica e intelectual. Pero esos resultados, ampliamente utilizados en marketing, pueden no ser significativos.

Un estudio del Oxford Internet Institute (OII) y varias otras universidades y organizaciones ha encontrado que solo el 16 por ciento de 445 benchmarks de LLM para procesamiento de lenguaje natural y machine learning utilizan métodos científicos rigurosos para comparar el rendimiento de los modelos.

Aún más preocupante, aproximadamente la mitad de los benchmarks afirman medir ideas abstractas como razonamiento o ausencia de daño sin ofrecer una definición clara de esos términos o cómo medirlos.

El problema con los benchmarks actuales

Andrew Bean, autor principal del estudio, declaró: «Los benchmarks sustentan casi todas las afirmaciones sobre avances en IA. Pero sin definiciones compartidas y medición sólida, se vuelve difícil saber si los modelos están mejorando genuinamente o solo aparentándolo.»

Cuando OpenAI lanzó GPT-5 anteriormente este año, la propuesta de la empresa se basó en una fundación de puntuaciones de benchmark, como las de AIME 2025, SWE-bench Verified, Aider Polyglot, MMMU y HealthBench Hard.

Estas pruebas presentan a los modelos de IA una serie de preguntas y los fabricantes de modelos se esfuerzan por hacer que sus bots respondan tantas como sea posible. Las preguntas o desafíos varían dependiendo del enfoque de la prueba.

Fallas metodológicas críticas

El estudio revela que:

  • 27 por ciento de los benchmarks revisados dependen de muestreo de conveniencia, lo que significa que los datos de muestra se eligen por conveniencia en lugar de usar métodos como muestreo aleatorio o muestreo estratificado
  • Los benchmarks no predicen adecuadamente el rendimiento en escenarios del mundo real

«Por ejemplo, si un benchmark reutiliza preguntas de un examen sin calculadora como AIME, los números en cada problema habrán sido elegidos para facilitar la aritmética básica. Probar solo en estos problemas no predeciría el rendimiento en números más grandes, donde los LLMs tienen dificultades,» explica el estudio.

Intentos de mejora

Los autores del estudio de OII han creado una lista de verificación con ocho recomendaciones para mejorar los benchmarks:

  1. Definir el fenómeno que se está midiendo
  2. Prepararse para la contaminación
  3. Usar métodos estadísticos para comparar modelos

El mismo día que se anunció el estudio de OII, Greg Kamradt, presidente de Arc Prize Foundation, anunció «ARC Prize Verified, un programa para aumentar el rigor de evaluar sistemas de frontera en el benchmark ARC-AGI.»

El verdadero benchmark: el dinero

OpenAI y Microsoft reportadamente tienen su propio benchmark interno para determinar cuándo se ha logrado la AGI (Inteligencia Artificial General), vagamente definida por OpenAI como «sistemas de IA que son generalmente más inteligentes que los humanos.»

Este hito importa a las dos empresas porque libera a OpenAI de su acuerdo de derechos de propiedad intelectual y exclusividad de Azure API con Microsoft.

Este benchmark de AGI, según The Information, puede ser cumplido por OpenAI desarrollando sistemas de IA que generen al menos $100 mil millones en ganancias. Medir dinero resulta ser más fácil que medir inteligencia.

Un problema sistémico

Bean y sus colegas están lejos de ser los primeros en cuestionar la validez de las pruebas de benchmark de IA. En febrero, investigadores del Centro de Investigación Conjunta de la Comisión Europea publicaron un artículo titulado «Can We Trust AI Benchmarks? An Interdisciplinary Review of Current Issues in AI Evaluation.»

Los autores identificaron «una serie de fallas sistémicas en las prácticas actuales de benchmarking, como incentivos desalineados, problemas de validez de constructo, incógnitas desconocidas y problemas con la manipulación de resultados de benchmark.»

La verificación y el rigor en las pruebas son necesarios porque las puntuaciones reportadas por los fabricantes de modelos o terceros pueden surgir de diferentes conjuntos de datos y métodos de prompting que hacen difícil la comparación, causando «confusión en el mercado y finalmente restando valor a nuestro objetivo de medir el progreso de la IA de frontera.»

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí