Anthropic ha lanzado oficialmente Claude Opus 4.5, su modelo de inteligencia artificial más inteligente y eficiente hasta la fecha. Esta nueva versión no solo establece récords en pruebas de ingeniería de software del mundo real, sino que también demuestra capacidades superiores en tareas cotidianas como investigación profunda y trabajo con presentaciones y hojas de cálculo.

Rendimiento excepcional en ingeniería de software

Claude Opus 4.5 ha logrado resultados estado del arte en las pruebas SWE-bench Verified, superando a todos los modelos de la competencia en ingeniería de software real. Pero quizás el resultado más impactante viene de las pruebas internas de Anthropic: el modelo ha superado a todos los candidatos humanos que han tomado el notoriamente difícil examen técnico de la empresa dentro del límite de tiempo de 2 horas establecido.

Disponibilidad y precios más accesibles

El modelo está disponible desde hoy a través de las aplicaciones de Claude, la API de Claude (usando claude-opus-4-5-20251101) y las tres principales plataformas en la nube. Un cambio significativo es la reducción de precios a $5/$25 por millón de tokens, haciendo las capacidades de nivel Opus accesibles a más usuarios, equipos y empresas.

Testimonios de clientes: «Simplemente lo entiende»

Las empresas que han tenido acceso temprano al modelo coinciden en una evaluación: Claude Opus 4.5 «simplemente lo entiende». Jeff Wang, CEO de Coatue, señala que los modelos Opus siempre han sido «el verdadero SOTA» pero han sido prohibitivos en costo en el pasado, y que Claude Opus 4.5 ahora está en un punto de precio donde puede ser el modelo principal para la mayoría de tareas. Mario Rodriguez, Chief Product Officer de GitHub, destaca que Claude Opus 4.5 entrega código de alta calidad y sobresale en impulsar flujos de trabajo agénticos robustos con GitHub Copilot, con pruebas tempranas que muestran que supera los benchmarks internos de codificación mientras reduce el uso de tokens a la mitad. Zach Lloyd, Founder & CEO de Warp, comenta que Claude Opus 4.5 sobresale en tareas autónomas de largo horizonte, especialmente aquellas que requieren razonamiento sostenido y ejecución de múltiples pasos, entregando una mejora del 15% sobre Sonnet 4.5.

Capacidades mejoradas en múltiples dominios

El modelo no solo mejora en programación. Claude Opus 4.5 demuestra capacidades superiores en visión mejorada, razonamiento avanzado, habilidades matemáticas y escritura de código en 7 de 8 lenguajes de programación en SWE-bench Multilingual. También muestra búsqueda agéntica con mejoras significativas en BrowseComp-Plus, tareas de largo plazo con 29% más rendimiento en Vending-Bench y resolución creativa de problemas.

Un ejemplo destacado de las capacidades del modelo surge en las pruebas τ2-bench, donde debía actuar como agente de servicio al cliente de una aerolínea. Mientras el benchmark esperaba que el modelo rechazara una modificación de reserva de economía básica, Claude Opus 4.5 encontró una solución creativa y legítima: primero actualizar la cabina, luego modificar los vuelos.

Avances en seguridad y alineación

Según la system card de Claude Opus 4.5, este es el modelo más robustamente alineado que Anthropic ha lanzado hasta la fecha. Las mejoras incluyen resistencia superior contra ataques de prompt injection, reducción significativa en comportamientos problemáticos y mejor alineación comparado con otros modelos frontier de la industria. Las pruebas desarrolladas por Gray Swan muestran que Opus 4.5 es más difícil de engañar con prompt injection que cualquier otro modelo frontier en la industria.

Nuevas funcionalidades en la plataforma

Una innovación clave es el nuevo parámetro de esfuerzo en la API de Claude, que permite a los desarrolladores decidir entre minimizar tiempo y gasto o maximizar capacidades. En nivel de esfuerzo medio, el modelo iguala el mejor puntaje de Sonnet 4.5 en SWE-bench Verified usando 76% menos tokens de salida, mientras que en nivel de esfuerzo máximo supera a Sonnet 4.5 por 4.3 puntos porcentuales usando 48% menos tokens.

La plataforma ahora incluye context management mejorado, capacidades de memoria, advanced tool use y gestión efectiva de equipos de subagentes. La combinación de estas técnicas mejoró el rendimiento de Opus 4.5 en evaluaciones de investigación profunda en casi 15 puntos porcentuales.

Actualizaciones de productos

Claude Code obtiene dos actualizaciones importantes: Plan Mode ahora construye planes más precisos y ejecuta más exhaustivamente, y está disponible en la aplicación de escritorio, permitiendo múltiples sesiones locales y remotas en paralelo.

Para usuarios de las aplicaciones Claude, las conversaciones largas ya no encuentran límites, ya que Claude resume automáticamente el contexto anterior según sea necesario. Claude for Chrome ahora está disponible para todos los usuarios Max, y Claude for Excel con acceso beta expandido a todos los usuarios Max, Team y Enterprise.

Los límites de uso han sido aumentados con la eliminación de límites específicos de Opus para usuarios de Claude y Claude Code con acceso a Opus 4.5, y un aumento de límites de uso general para usuarios Max y Team Premium, ofreciendo aproximadamente el mismo número de tokens de Opus que anteriormente tenían con Sonnet.

El futuro de la ingeniería de software

Los resultados de Claude Opus 4.5 plantean preguntas importantes sobre cómo la IA cambiará la ingeniería como profesión. Anthropic reconoce que mientras el modelo supera a candidatos fuertes en habilidades técnicas importantes, esto no incluye otras habilidades cruciales como colaboración, comunicación o los instintos que se desarrollan a lo largo de los años. La investigación de Societal Impacts y Economic Futures de Anthropic se enfoca en entender este tipo de cambios en múltiples campos, con planes de compartir más resultados próximamente.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí