Inicio Tecnología Desarrollo de software GPT-5 vs Claude 4 Sonnet: comparativa en codificación agéntica compleja

GPT-5 vs Claude 4 Sonnet: comparativa en codificación agéntica compleja

Por

13 de agosto de 2025

Imagen de cabecera retocada con Editasteic Editasteic

OpenAI lanzó recientemente GPT-5, promocionándolo como su mejor modelo para codificación agéntica. Cuando llegó a GitHub Copilot esta mañana, un desarrollador decidió ponerlo a prueba con una tarea de programación compleja y prolongada, comparándolo después con Claude 4 Sonnet usando exactamente la misma tarea.

El desafío: Portar Ruler de TypeScript a Rust

La prueba consistió en revisar la implementación actual de Ruler (una herramienta construida con ayuda de IA en TypeScript) y portarla completamente a Rust. Aunque Ruler no es especialmente sofisticada —principalmente una herramienta para gestionar texto y configuración— tiene suficiente complejidad con soporte para múltiples agentes y formatos como para ser un verdadero desafío de programación.

GPT-5: Inteligencia y autonomía impresionantes

El enfoque estratégico

El desarrollador abrió Visual Studio Code, configuró GitHub Copilot Chat con GPT-5 y dictó los requerimientos de forma natural, sin mucha planificación previa. La idea era probar qué tan bueno es el modelo siguiendo instrucciones con prompting mínimo.

GPT-5 impresionó inmediatamente. Revisó toda la base de código, investigó información online sobre paquetes y bibliotecas relevantes, y produjo un plan detallado muy completo. Una vez aprobado el plan, GPT-5 comenzó la ejecución.

Características destacadas

Mucho más agéntico que modelos anteriores: Trabajó continuamente, analizando diferentes partes del código, escribiendo nuevas funcionalidades, todo sin intervención constante
Paradas estratégicas: Se detuvo solo dos veces durante la interacción, declarando haber terminado trabajo específico, explicando claramente lo realizado y lo pendiente
Enfoque metodológico: Siguió la estrategia sugerida de escribir primero un test funcional como script de shell, luego usarlo para validar que la implementación fuera idéntica

Desafíos técnicos

GPT-5 se quedó atascado dos veces durante la operación —la interfaz de chat solo mostraba un spinner sin hacer nada. Eventualmente fue necesario detenerlo y pedirle continuar desde donde se había quedado. Esto no creó problemas serios pero requirió más supervisión de la esperada.

Después de supervisar al agente, reiniciarlo un par de veces y confirmar dos veces que debía continuar con la implementación, logró crear un port completo que funcionaba provadamente igual que el original.

Calidad del código: Funcional pero decepcionante

El código producido fue algo decepcionante. GPT-5 eligió poner todo en un solo archivo de Rust con mucho código espagueti, aunque su propio plan pedía un enfoque más estructurado. Funcionaba perfectamente, pero no era algo aceptable como pull request.

Claude 4 Sonnet: Rápido y elegante, pero menos disciplinado

Velocidad y comunicación superior

Claude trabajó más rápido y se comunicó mejor —verboso donde necesitaba serlo, con formato claro. Una diferencia continua: mientras GPT-5 pensaba mucho y luego hacía algo correctamente la primera vez, Claude probaba frenéticamente diferentes cosas —escribiendo código, ejecutando comandos, cometiendo errores obvios (como guardar archivos con errores de sintaxis), pero luego recuperándose.

Menos disciplina en seguir instrucciones

Claude fue menos disciplinado siguiendo instrucciones. Más crucialmente, la instrucción de usar un test funcional escrito como script de shell para liderar la implementación —Claude lo hizo eventualmente, pero también improvisó muchas metodologías de testing propias.

Código elegante pero implementación incompleta

A diferencia del archivo único y desordenado de GPT-5, Claude creó una estructura de proyecto muy ordenada con diferentes módulos para cada parte del programa —código mucho más legible y mantenible.

Sin embargo, Claude se detuvo varias veces diciendo estar terminado, pero cuando se le señalaba la implementación faltante, daba su usual «tienes razón» e intentaba arreglarlo. Después de cinco iteraciones de esto, el desarrollador se rindió. La implementación actual, aunque impresionante y elegante, estaba incompleta.

GitHub Copilot Chat: Excelente pero no completamente autónomo

GitHub Copilot ha avanzado mucho y el agente actual es realmente divertido de usar. Tiene soporte completo para todo —desde su rico conjunto de herramientas hasta servidores MCP, más interacción con terminal e IDE.

Un problema persistente: Aunque Copilot Chat permite autorizar acciones iniciadas por herramientas y servidores MCP para la duración de la sesión, los comandos de terminal a menudo requieren aprobación manual. Para una tarea prolongada, fue necesario aprobar manualmente incluso comandos simples como leer listados de directorios.

Conclusión

Ambos modelos tuvieron un buen desempeño. GPT-5 parece ser un modelo muy inteligente y capaz —capaz de entender tareas perfectamente, planificar bien y ejecutarlas con intención. Definitivamente parece un modelo muy fuerte para programación.

Estilísticamente, Claude todavía parece estar ganando —escribió código más elegante y fue más agradable para interactuar, y eso también cuenta.

Es importante notar que GPT-5 apenas tenía unas horas disponible cuando se realizó esta prueba, mientras que Claude Sonnet ha estado establecido para programación por un tiempo. Esta comparación es más un «vibe check» que una evaluación científica controlada, pero ambos modelos mostraron capacidades impresionantes para tareas de programación agéntica compleja.

Fuente

GPT-5 vs Claude 4 Sonnet: comparativa en codificación agéntica compleja

El desafío: Portar Ruler de TypeScript a Rust

GPT-5: Inteligencia y autonomía impresionantes

El enfoque estratégico

Características destacadas

Desafíos técnicos

Calidad del código: Funcional pero decepcionante

Claude 4 Sonnet: Rápido y elegante, pero menos disciplinado

Velocidad y comunicación superior

Menos disciplina en seguir instrucciones

Código elegante pero implementación incompleta

GitHub Copilot Chat: Excelente pero no completamente autónomo

Conclusión

DEJA UNA RESPUESTA Cancelar respuesta

Incluso más noticias

Nvidia invertirá 26.000 millones de dólares para desarrollar modelos de IA...

Sony experimenta con precios dinámicos en juegos digitales de PlayStation Store

El CEO de Palantir revela cómo su IA alterará el poder...

CATEGORÍA POPULAR

ChatGPT está alimentando delirios amorosos y provocando rupturas innecesarias

Microsoft y Xbox desmienten rumores: Target y Walmart siguen vendiendo productos...

El tiempo ahorrado por la inteligencia artificial se compensa con nuevas...

Mullvad VPN lanza el cortometraje ‘¿Y luego?’ contra el espionaje masivo...