En un reciente post en su blog, Anthropic destacó que su modelo Claude 3.7 Sonnet fue probado en el emblemático Pokémon Red. Para ello, se le dotó de una memoria básica y la capacidad de interpretar los píxeles de la pantalla, así como de realizar llamadas a funciones que permiten navegar por el juego y presionar los botones adecuados. Esto permitió que el modelo interactuara de manera continua con el juego, creando una experiencia fluida en su desarrollo.

Una de las características distintivas de Claude 3.7 Sonnet es su capacidad para llevar a cabo un ‘pensamiento extendido’. Este modelo es capaz de abordar problemas complejos aplicando más poder computacional y tomando un tiempo adicional, una habilidad que se ha comparado con otros modelos emergentes en el sector como el o3-mini de OpenAI y el R1 de DeepSeek. Esta función ha demostrado ser crucial durante el juego, permitiéndole al modelo razonar en situaciones que requieren más reflexión.

Un gráfico que muestra el progreso de diferentes versiones del modelo Claude al jugar Pokémon. El eje vertical indica los hitos alcanzados en el juego, como obtener medallas de líderes de gimnasio y llegar a distintas ciudades. El eje horizontal representa el número de acciones tomadas. Se observan líneas de diferentes colores que representan los modelos "3.0 Sonnet", "3.5 Sonnet", "3.5 Sonnet (new)" y "3.7 Sonnet", con el modelo 3.7 logrando el mayor avance en el juego. En la parte inferior, una nota aclara que Pokémon es una marca registrada de Nintendo y que no hay afiliación con la compañía.

Al comparar Claude 3.7 Sonnet con su predecesor, Claude 3.0 Sonnet, se evidencia un avance significativo. Mientras que la versión anterior no logró salir de Pallet Town en su partida, el nuevo modelo progresó lo suficiente como para enfrentarse a tres líderes de gimnasio y obtener sus medallas, lo que representa un considerable logro en el contexto del juego. Aunque no se especificó cuánto tiempo o recursos computacionales fueron necesarios para alcanzar estos logros, se mencionó que el modelo ejecutó un total de 35,000 acciones.

El uso de Pokémon Red como benchmark puede parecer anecdótico, pero este no es un enfoque nuevo, ya que la utilización de videojuegos para evaluar la inteligencia artificial cuenta con una larga tradición. Recientemente, se han desarrollado diversas aplicaciones y plataformas dedicadas a poner a prueba las habilidades de juego de los modelos en títulos que van desde Street Fighter hasta Pictionary. Esta tendencia resalta la creatividad en la evaluación de capacidades de aprendizaje de las máquinas.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí