OpenAI lanzó recientemente GPT-5, promocionándolo como su mejor modelo para codificación agéntica. Cuando llegó a GitHub Copilot esta mañana, un desarrollador decidió ponerlo a prueba con una tarea de programación compleja y prolongada, comparándolo después con Claude 4 Sonnet usando exactamente la misma tarea.

El desafío: Portar Ruler de TypeScript a Rust

La prueba consistió en revisar la implementación actual de Ruler (una herramienta construida con ayuda de IA en TypeScript) y portarla completamente a Rust. Aunque Ruler no es especialmente sofisticada —principalmente una herramienta para gestionar texto y configuración— tiene suficiente complejidad con soporte para múltiples agentes y formatos como para ser un verdadero desafío de programación.

GPT-5: Inteligencia y autonomía impresionantes

El enfoque estratégico

El desarrollador abrió Visual Studio Code, configuró GitHub Copilot Chat con GPT-5 y dictó los requerimientos de forma natural, sin mucha planificación previa. La idea era probar qué tan bueno es el modelo siguiendo instrucciones con prompting mínimo.

GPT-5 impresionó inmediatamente. Revisó toda la base de código, investigó información online sobre paquetes y bibliotecas relevantes, y produjo un plan detallado muy completo. Una vez aprobado el plan, GPT-5 comenzó la ejecución.

Características destacadas

  • Mucho más agéntico que modelos anteriores: Trabajó continuamente, analizando diferentes partes del código, escribiendo nuevas funcionalidades, todo sin intervención constante
  • Paradas estratégicas: Se detuvo solo dos veces durante la interacción, declarando haber terminado trabajo específico, explicando claramente lo realizado y lo pendiente
  • Enfoque metodológico: Siguió la estrategia sugerida de escribir primero un test funcional como script de shell, luego usarlo para validar que la implementación fuera idéntica

Desafíos técnicos

GPT-5 se quedó atascado dos veces durante la operación —la interfaz de chat solo mostraba un spinner sin hacer nada. Eventualmente fue necesario detenerlo y pedirle continuar desde donde se había quedado. Esto no creó problemas serios pero requirió más supervisión de la esperada.

Después de supervisar al agente, reiniciarlo un par de veces y confirmar dos veces que debía continuar con la implementación, logró crear un port completo que funcionaba provadamente igual que el original.

Calidad del código: Funcional pero decepcionante

El código producido fue algo decepcionante. GPT-5 eligió poner todo en un solo archivo de Rust con mucho código espagueti, aunque su propio plan pedía un enfoque más estructurado. Funcionaba perfectamente, pero no era algo aceptable como pull request.

Claude 4 Sonnet: Rápido y elegante, pero menos disciplinado

Velocidad y comunicación superior

Claude trabajó más rápido y se comunicó mejor —verboso donde necesitaba serlo, con formato claro. Una diferencia continua: mientras GPT-5 pensaba mucho y luego hacía algo correctamente la primera vez, Claude probaba frenéticamente diferentes cosas —escribiendo código, ejecutando comandos, cometiendo errores obvios (como guardar archivos con errores de sintaxis), pero luego recuperándose.

Menos disciplina en seguir instrucciones

Claude fue menos disciplinado siguiendo instrucciones. Más crucialmente, la instrucción de usar un test funcional escrito como script de shell para liderar la implementación —Claude lo hizo eventualmente, pero también improvisó muchas metodologías de testing propias.

Código elegante pero implementación incompleta

A diferencia del archivo único y desordenado de GPT-5, Claude creó una estructura de proyecto muy ordenada con diferentes módulos para cada parte del programa —código mucho más legible y mantenible.

Sin embargo, Claude se detuvo varias veces diciendo estar terminado, pero cuando se le señalaba la implementación faltante, daba su usual «tienes razón» e intentaba arreglarlo. Después de cinco iteraciones de esto, el desarrollador se rindió. La implementación actual, aunque impresionante y elegante, estaba incompleta.

GitHub Copilot Chat: Excelente pero no completamente autónomo

GitHub Copilot ha avanzado mucho y el agente actual es realmente divertido de usar. Tiene soporte completo para todo —desde su rico conjunto de herramientas hasta servidores MCP, más interacción con terminal e IDE.

Un problema persistente: Aunque Copilot Chat permite autorizar acciones iniciadas por herramientas y servidores MCP para la duración de la sesión, los comandos de terminal a menudo requieren aprobación manual. Para una tarea prolongada, fue necesario aprobar manualmente incluso comandos simples como leer listados de directorios.

Conclusión

Ambos modelos tuvieron un buen desempeño. GPT-5 parece ser un modelo muy inteligente y capaz —capaz de entender tareas perfectamente, planificar bien y ejecutarlas con intención. Definitivamente parece un modelo muy fuerte para programación.

Estilísticamente, Claude todavía parece estar ganando —escribió código más elegante y fue más agradable para interactuar, y eso también cuenta.

Es importante notar que GPT-5 apenas tenía unas horas disponible cuando se realizó esta prueba, mientras que Claude Sonnet ha estado establecido para programación por un tiempo. Esta comparación es más un «vibe check» que una evaluación científica controlada, pero ambos modelos mostraron capacidades impresionantes para tareas de programación agéntica compleja.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí