Un nuevo estudio revela que las herramientas de inteligencia artificial generativa, a pesar de su avance en tareas complejas, continúan enfrentándose a problemas con habilidades básicas como leer relojes analógicos y usar calendarios. Según la investigación realizada por un equipo de la Universidad de Edimburgo, los sistemas de IA solo lograron interpretar las caras de los relojes correctamente en menos del 25% de las ocasiones.
Los investigadores evaluaron varios modelos de lenguaje multimodal, incluyendo Google DeepMind’s Gemini 2.0, Anthropic’s Claude 3.5 Sonnet, Meta’s Llama 3.2-11B-Vision-Instruct, Alibaba’s Qwen2-VL7B-Instruct, ModelBest’s MiniCPM-V-2.6 y OpenAI’s GPT-4o y GPT-o1. Se utilizaron imágenes de relojes con distintos tipos, incluidas aquellas con números romanos y manecillas estilizadas.
Los hallazgos indican que las IA tuvieron dificultades significativas al intentar leer los relojes, especialmente cuando se utilizaban números romanos. La eliminación de la manecilla de los segundos no mejoró la precisión, sugiriendo que el principal desafío radica en la detección de las manecillas y la interpretación de los ángulos en la cara del reloj.
En cuanto a los calendarios, utilizando 10 años de imágenes, se formularon preguntas como «¿qué día de la semana es el Día de Año Nuevo?» o «¿cuál es el día 153 del año?». Las IA más avanzadas cometieron errores en un 20% de las preguntas relacionadas con los calendarios, siendo Gemini-2.0 el que registró mejores resultados en las pruebas de relojeros.
Rohit Saxena, líder del estudio, destacó que «la mayoría de la gente puede decir la hora y usar calendarios desde una edad temprana». Estas deficiencias en las capacidades de las IA resaltan una brecha significativa en tareas que se consideran básicas para las personas. Esto es un importante desafío a abordar si se desea una exitosa integración de la IA en aplicaciones del mundo real que dependen del tiempo, como la programación y la automatización.
Aryo Gema, otro de los investigadores, añadió que la investigación actual sobre IA tiende a centrarse en tareas de razonamiento complejas, pero muchas veces estas tecnologías aún luchan con tareas cotidianas más simples.
Los resultados se presentarán en un documento revisado por pares en el taller «Razonamiento y Planificación para Modelos de Lenguaje Grande» en la décima tercera Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) que tendrá lugar el 28 de abril en Singapur.