Un nuevo estudio realizado por METR (Model Evaluation and Threat Research) arroja resultados sorprendentes sobre el impacto de las herramientas de IA en la productividad de desarrolladores de software experimentados: los hace trabajar un 19% más lento.

Metodología del estudio

Los investigadores condujeron un ensayo controlado aleatorizado (RCT) con 16 desarrolladores experimentados de repositorios de código abierto grandes (con un promedio de 22,000+ estrellas y 1M+ líneas de código) en los que habían contribuido durante múltiples años.

El experimento funcionó de la siguiente manera:

  • Los desarrolladores proporcionaron listas de problemas reales (246 en total) que serían valiosos para el repositorio
  • Cada problema fue asignado aleatoriamente para permitir o prohibir el uso de IA
  • Cuando se permitía IA, los desarrolladores podían usar cualquier herramienta (principalmente Cursor Pro con Claude 3.5/3.7 Sonnet)
  • Las tareas duraban un promedio de dos horas cada una
  • Los desarrolladores grabaron sus pantallas y reportaron el tiempo total de implementación

Resultados contradictorios con las expectativas

Lo más llamativo del estudio es la brecha entre percepción y realidad:

  • Los desarrolladores esperaban que la IA los acelerara en un 24%
  • La realidad mostró que trabajaron 19% más lento con IA
  • Incluso después de experimentar la desaceleración, los desarrolladores aún creían que la IA los había acelerado en un 20%

Análisis de factores

Los investigadores analizaron 20 factores potenciales que podrían explicar la desaceleración, encontrando evidencia de que 5 probablemente contribuyen al problema:

  • Problemas de calidad del código generado por IA
  • Tiempo invertido en revisar y validar sugerencias de IA
  • Distracción causada por las herramientas de IA
  • Dificultades para integrar código de IA con el contexto existente
  • Sobrecarga cognitiva al gestionar múltiples sugerencias

Reconciliando resultados contradictorios

El estudio reconoce que sus resultados parecen contradecir tanto los benchmarks impresionantes de IA como los reportes anecdóticos de utilidad y la adopción generalizada de herramientas de IA.

Los investigadores proponen tres hipótesis para reconciliar estas diferencias:

Hipótesis 1: El RCT subestima las capacidades

Los resultados de benchmarks y anécdotas son correctos, y hay algún problema metodológico desconocido en el estudio.

Hipótesis 2: Los benchmarks y anécdotas sobreestiman las capacidades

Los resultados del RCT son correctos, y los puntajes de benchmarks y reportes anecdóticos son sobreestimaciones de la capacidad del modelo.

Hipótesis 3: Evidencia complementaria para diferentes configuraciones

Todas las metodologías son correctas, pero miden subconjuntos de la distribución de tareas que son más o menos desafiantes para los modelos.

Limitaciones importantes del estudio

Los investigadores enfatizan que NO proporcionan evidencia de que:

  • Los sistemas de IA no aceleren actualmente a la mayoría de desarrolladores de software
  • Los sistemas de IA no aceleren individuos en dominios distintos al desarrollo de software
  • Los sistemas de IA en el futuro cercano no acelerarán a desarrolladores en esta configuración exacta
  • No existan formas de usar los sistemas de IA existentes más efectivamente

Implicaciones para el futuro

El estudio sugiere que las herramientas de IA pueden tener menor rendimiento en configuraciones con estándares de calidad muy altos, o con muchos requisitos implícitos relacionados con documentación, cobertura de pruebas, o formato/linting que toman tiempo considerable para que los humanos aprendan.

METR planea continuar ejecutando versiones similares de este estudio para rastrear tendencias en la aceleración (o desaceleración) de la IA, particularmente porque esta metodología de evaluación puede ser más difícil de manipular que los benchmarks tradicionales.

Conclusión

Este estudio representa una instantánea de las capacidades de IA de principios de 2025 en un entorno relevante específico. Dado que estos sistemas continúan evolucionando rápidamente, los investigadores planean usar esta metodología para ayudar a estimar la aceleración de IA en la automatización de I+D de IA.

Los resultados destacan la importancia de desarrollar y usar metodologías de evaluación diversas para formar una imagen más completa del estado actual de la IA y hacia dónde nos dirigimos, más allá de depender únicamente de benchmarks y datos anecdóticos.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí