Un desarrollador de software revela por qué la gestión inteligente de tareas pequeñas es más importante que la potencia bruta de los modelos de IA para crear código de calidad.

El contexto es rey en el desarrollo asistido por IA

La creación de software asistido por inteligencia artificial no se trata tanto de la inteligencia del modelo, sino de proporcionar el contexto correcto. Esta es la conclusión a la que ha llegado Atharva Raykar, desarrollador de la consultora tecnológica Nilenso, tras años de experiencia trabajando con herramientas de IA para programación.

Cuando Raykar comenzó a utilizar herramientas de codificación asistida por IA, obtenía resultados mediocres a pesar de la inteligencia de los modelos. El problema no era la capacidad de los sistemas, sino su enfoque para gestionar las unidades de trabajo.

Andrej Karpathy, reconocido investigador en IA, describió este trabajo como «mantener a la IA con una correa corta», trabajando en fragmentos pequeños de una sola cosa concreta.

La ventana de contexto: el lienzo de la IA

El concepto de «ingeniería de contexto» ayuda a entender por qué gestionar unidades de trabajo es la técnica más importante para obtener mejores resultados de las herramientas de IA. Se centra en el «lienzo» sobre el cual la IA genera código.

La salida generada del modelo de lenguaje es una muestra de la probabilidad del siguiente token. Cada vez que se genera un token, lo que ya se ha generado en la iteración anterior se añade a la ventana de contexto, influenciando enormemente la calidad de la salida.

Diagrama que muestra cómo evoluciona la ventana de contexto de un modelo de lenguaje en tres turnos de interacción. Se ilustran entradas y salidas como herramientas, mensajes de usuario, razonamiento extendido, uso de herramientas y resultados, junto con la limitación de 200K tokens y la truncación al final.

Si no proporcionas la información necesaria en el contexto, la IA alucinará o generará código que no es congruente con las prácticas de tu base de código. Es especialmente frágil en los puntos de integración de los sistemas de software.

Por otro lado, si llenas el contexto con demasiada información, la calidad de tu salida se degrada debido a la falta de atención enfocada.

El problema de la propagación de errores

Raykar presenta un análisis matemático revelador. Si un agente de IA tiene un 5% de probabilidad de cometer un error, en un flujo de trabajo de múltiples turnos que tome 10 pasos para implementar, tendrás solo un 40.1% de probabilidad de éxito.

Tasa de error por acción5 turnos10 turnos20 turnos50 turnos
0.1%99.5%99.0%98.0%95.1%
1%95.1%90.4%81.8%60.5%
5%77.4%59.9%35.8%7.7%

METR, organización de investigación en IA, publicó datos mostrando que GPT-5 puede realizar tareas de aproximadamente 2 horas con una tasa de éxito del 70%. Sin embargo, estos experimentos se realizaron en entornos controlados que no reflejan la complejidad del mundo real.

La realidad es más compleja

METR reconoce la complejidad del mundo real a través de una «calificación de desorden» para sus tareas. El «desorden promedio» de sus tareas es 3.2/16, mientras que los proyectos de ingeniería de software del mundo real puntuarían al menos 7-8, dado que son dependientes del camino, dinámicos y sin contrafácticos claros.

Un aumento de 1 punto en el desorden de la tarea reduce las tasas de éxito promedio en aproximadamente 8.1%. Extrapolando, GPT-5 pasaría del 70% al 40% de tasa de éxito para tareas de 2 horas en entornos realistas.

La solución: unidades de trabajo del tamaño correcto

La unidad de trabajo del tamaño correcto necesita ser pequeña y describir el resultado deseado de manera concisa. El resultado deseado debe ser legible para humanos y proporcionar valor comercial legible.

Raykar propone utilizar User Stories como punto de partida, ya que:

  • Proporcionan valor comercial y sirven como contenedor para todo el contexto
  • Se centran en resultados del usuario, robustos al entorno dinámico del desarrollo
  • Son comprensibles para todos los stakeholders: equipos, propietarios de productos, personas de negocio y usuarios
Tipo de unidadTamañoResultado de completación
Elemento TODOpequeñovalor técnico incremental
«Modo Plan»grandevalor técnico
Amazon Kiro Specpequeñovalor técnico
User Storypequeñovalor comercial

El experimento StoryMachine

Para probar si las user stories pueden servir como unidades de trabajo óptimas, Raykar y su equipo están ejecutando un experimento llamado StoryMachine. Actualmente lee PRDs y especificaciones técnicas y produce tarjetas de historias.

El objetivo es crear un sistema de evaluación que ayude a iterar hacia una descripción de unidad de trabajo que permita construir software útil sin esfuerzo.

El futuro del desarrollo asistido por IA

Raykar quiere que el desarrollo asistido por IA sea menos laborioso y menos como una máquina tragamonedas. Su propuesta se basa en que la mejor palanca para llegar ahí es gestionar correctamente la unidad de trabajo.

La clave no está en esperar modelos más inteligentes, sino en dominar el arte de dividir problemas complejos en unidades de trabajo pequeñas, verificables y que proporcionen valor comercial legible. Esta aproximación promete revolucionar cómo los desarrolladores colaboran con sistemas de IA para crear software de calidad.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí