En los últimos años, la inteligencia artificial ha avanzado a un ritmo vertiginoso, superando punto por punto los benchmarks tradicionales. Sin embargo, surge una cuestión clave: ¿qué tan representativos son estos benchmarks respecto al rendimiento de los modelos en tareas reales? Para responder a ello, el equipo de METR (Model Evaluation & Threat Research) ha propuesto una métrica innovadora: el “horizonte temporal de finalización de tareas al 50%”. Este indicador busca cuantificar cuánto tiempo necesitaría un ser humano experto para completar tareas que los modelos de IA pueden resolver con una tasa de éxito del 50%.

Este nuevo enfoque pretende ofrecer una medida más tangible del progreso de las IAs, especialmente en contextos aplicables al mundo real, como la ingeniería de software y la investigación en machine learning.

Cómo se mide el horizonte temporal de la IA

Para calcular esta métrica, los investigadores han evaluado la capacidad de trece modelos de lenguaje avanzados —desde GPT-2 hasta modelos de vanguardia como Claude 3.7 Sonnet— frente a un conjunto de 170 tareas. Estas proceden de tres conjuntos clave:

  • HCAST: tareas técnicas en ciberseguridad, programación y razonamiento general.
  • RE-Bench: desafíos abiertos de ingeniería en aprendizaje automático, con una duración estimada de 8 horas por tarea.
  • SWAA: acciones atómicas de software, es decir, tareas breves (<1 minuto) inspiradas en el trabajo real de desarrolladores.

Cada tarea fue completada previamente por humanos con experiencia profesional, y se registró el tiempo necesario para ello. La IA, usando agentes autónomos, intentó luego resolver las mismas tareas. Así se pudo determinar en qué punto temporal un modelo alcanza un 50% de éxito.

Resultados clave: la IA progresa a ritmo exponencial

Los hallazgos del estudio revelan un crecimiento exponencial en la capacidad de los modelos para completar tareas largas. Desde 2019, el horizonte temporal de éxito al 50% se ha duplicado aproximadamente cada 7 meses. En 2025, modelos como Claude 3.7 Sonnet ya son capaces de completar con un 50% de éxito tareas que a un humano le tomarían cerca de una hora.

Si esta tendencia se mantiene, los investigadores proyectan que en algún punto entre finales de 2028 y principios de 2031, la IA podría resolver tareas que a los humanos les llevarían un mes completo de trabajo.

Más allá de los benchmarks: tareas reales y su “complejidad desordenada”

Uno de los aspectos más innovadores del estudio fue el intento de abordar la validez externa, es decir, cómo se comportan los modelos ante tareas menos “limpias” o estructuradas. Para ello, los autores identificaron 16 factores que definen la “desorden” o complejidad real de las tareas (como ambigüedad, entorno cambiante, recursos limitados o necesidad de coordinación entre agentes).

Los resultados muestran que, aunque el rendimiento de las IAs decrece en tareas más “desordenadas”, la tendencia general de mejora sigue siendo consistente, lo cual es un indicio esperanzador respecto a la aplicabilidad de la IA en entornos reales.

Extrapolaciones y escenarios futuros

Proyectando la curva de crecimiento actual, el estudio sugiere que las IAs podrían alcanzar una capacidad transformadora dentro de menos de una década. Una IA con un horizonte de tareas de un mes podría automatizar grandes fracciones del trabajo humano en software, como escribir aplicaciones complejas, mantener proyectos o incluso contribuir a nuevas investigaciones científicas.

No obstante, los autores advierten de las limitaciones inherentes a su metodología, como la dificultad de crear tareas realmente representativas, los sesgos de los humanos empleados como referencia y los desafíos en tareas con alta necesidad de contexto.

Implicaciones: riesgos, gobernanza y el futuro de la IA

El avance hacia modelos con mayor autonomía y duración en sus tareas también eleva el nivel de riesgo. Modelos con estas capacidades podrían ser empleados para realizar acciones complejas sin intervención humana, con aplicaciones tanto beneficiosas como peligrosas.

Por ello, los investigadores subrayan la importancia de medidas de evaluación fiables y continuas, que ayuden a prever cuándo se alcanzan ciertos umbrales críticos de capacidad, y así activar políticas de seguridad, regulación y gobernanza adecuadas.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí