Inicio Tecnología Desarrollo de software Según un estudio la IA actual hace que los desarrolladores experimentados trabajen...

Según un estudio la IA actual hace que los desarrolladores experimentados trabajen un 19% más lento

Por

BetaZetaNews

14 de julio de 2025

Un nuevo estudio realizado por METR (Model Evaluation and Threat Research) arroja resultados sorprendentes sobre el impacto de las herramientas de IA en la productividad de desarrolladores de software experimentados: los hace trabajar un 19% más lento.

Metodología del estudio

Los investigadores condujeron un ensayo controlado aleatorizado (RCT) con 16 desarrolladores experimentados de repositorios de código abierto grandes (con un promedio de 22,000+ estrellas y 1M+ líneas de código) en los que habían contribuido durante múltiples años.

El experimento funcionó de la siguiente manera:

Los desarrolladores proporcionaron listas de problemas reales (246 en total) que serían valiosos para el repositorio
Cada problema fue asignado aleatoriamente para permitir o prohibir el uso de IA
Cuando se permitía IA, los desarrolladores podían usar cualquier herramienta (principalmente Cursor Pro con Claude 3.5/3.7 Sonnet)
Las tareas duraban un promedio de dos horas cada una
Los desarrolladores grabaron sus pantallas y reportaron el tiempo total de implementación

Resultados contradictorios con las expectativas

Lo más llamativo del estudio es la brecha entre percepción y realidad:

Los desarrolladores esperaban que la IA los acelerara en un 24%
La realidad mostró que trabajaron 19% más lento con IA
Incluso después de experimentar la desaceleración, los desarrolladores aún creían que la IA los había acelerado en un 20%

Análisis de factores

Los investigadores analizaron 20 factores potenciales que podrían explicar la desaceleración, encontrando evidencia de que 5 probablemente contribuyen al problema:

Problemas de calidad del código generado por IA
Tiempo invertido en revisar y validar sugerencias de IA
Distracción causada por las herramientas de IA
Dificultades para integrar código de IA con el contexto existente
Sobrecarga cognitiva al gestionar múltiples sugerencias

Reconciliando resultados contradictorios

El estudio reconoce que sus resultados parecen contradecir tanto los benchmarks impresionantes de IA como los reportes anecdóticos de utilidad y la adopción generalizada de herramientas de IA.

Los investigadores proponen tres hipótesis para reconciliar estas diferencias:

Hipótesis 1: El RCT subestima las capacidades

Los resultados de benchmarks y anécdotas son correctos, y hay algún problema metodológico desconocido en el estudio.

Hipótesis 2: Los benchmarks y anécdotas sobreestiman las capacidades

Los resultados del RCT son correctos, y los puntajes de benchmarks y reportes anecdóticos son sobreestimaciones de la capacidad del modelo.

Hipótesis 3: Evidencia complementaria para diferentes configuraciones

Todas las metodologías son correctas, pero miden subconjuntos de la distribución de tareas que son más o menos desafiantes para los modelos.

Limitaciones importantes del estudio

Los investigadores enfatizan que NO proporcionan evidencia de que:

Los sistemas de IA no aceleren actualmente a la mayoría de desarrolladores de software
Los sistemas de IA no aceleren individuos en dominios distintos al desarrollo de software
Los sistemas de IA en el futuro cercano no acelerarán a desarrolladores en esta configuración exacta
No existan formas de usar los sistemas de IA existentes más efectivamente

Implicaciones para el futuro

El estudio sugiere que las herramientas de IA pueden tener menor rendimiento en configuraciones con estándares de calidad muy altos, o con muchos requisitos implícitos relacionados con documentación, cobertura de pruebas, o formato/linting que toman tiempo considerable para que los humanos aprendan.

METR planea continuar ejecutando versiones similares de este estudio para rastrear tendencias en la aceleración (o desaceleración) de la IA, particularmente porque esta metodología de evaluación puede ser más difícil de manipular que los benchmarks tradicionales.

Conclusión

Este estudio representa una instantánea de las capacidades de IA de principios de 2025 en un entorno relevante específico. Dado que estos sistemas continúan evolucionando rápidamente, los investigadores planean usar esta metodología para ayudar a estimar la aceleración de IA en la automatización de I+D de IA.

Los resultados destacan la importancia de desarrollar y usar metodologías de evaluación diversas para formar una imagen más completa del estado actual de la IA y hacia dónde nos dirigimos, más allá de depender únicamente de benchmarks y datos anecdóticos.

Fuente

Según un estudio la IA actual hace que los desarrolladores experimentados trabajen un 19% más lento

Metodología del estudio

Resultados contradictorios con las expectativas

Análisis de factores

Reconciliando resultados contradictorios

Hipótesis 1: El RCT subestima las capacidades

Hipótesis 2: Los benchmarks y anécdotas sobreestiman las capacidades

Hipótesis 3: Evidencia complementaria para diferentes configuraciones

Limitaciones importantes del estudio

Implicaciones para el futuro

Conclusión

DEJA UNA RESPUESTA Cancelar respuesta

Incluso más noticias

Alemania completa migración masiva de sistemas de email a código abierto

El ‘Chatfishing’ llega a las apps de citas: usuarios emplean ChatGPT...

AMD y Sony revelan «Project Amethyst»: la arquitectura revolucionaria que podría...

CATEGORÍA POPULAR

Regresan los cuadernos azules en la educación estadounidense por el uso...

¿Qué nos depara el futuro de la manipulación digital?

Discord empieza a probar escaneos faciales para verificación de edad

Anthropic actualiza sus términos para permitir el uso de datos de...