Un reciente informe sugiere que los nuevos modelos de razonamiento utilizados en chatbots están produciendo resultados menos precisos debido a tasas más altas de alucinación. Los expertos advierten que la situación es más grave de lo que parece.
AI chatbots de empresas como OpenAI y Google han estado recibiendo actualizaciones de razonamiento en los últimos meses, destinadas a mejorar su capacidad para ofrecer respuestas confiables. Sin embargo, pruebas recientes indican que estos modelos a veces están fallando más que los anteriores. Los errores cometidos por los chatbots, conocidos como «alucinaciones», han sido un problema desde el inicio, y está claro que tal vez nunca desaparezcan.
La alucinación es un término general que describe ciertos tipos de errores cometidos por los modelos de lenguaje natural (LLMs), que alimentan sistemas como ChatGPT de OpenAI o Gemini de Google. Es más conocida por describir cómo a veces presentan información falsa como verdadera, pero también puede referirse a respuestas generadas por la IA que son factualmente precisas, pero no relevantes para la pregunta que se hizo, o que no siguen las instrucciones de otra manera.
Un informe técnico de OpenAI que evalúa sus últimos modelos de LLM mostró que sus modelos o3 y o4-mini, lanzados en abril, tenían tasas de alucinación significativamente más altas que el modelo o1, que salió a fines de 2024. Por ejemplo, al resumir hechos disponibles públicamente sobre personas, el modelo o3 alucinó el 33 por ciento del tiempo, mientras que el modelo o4-mini lo hizo el 48 por ciento del tiempo. En comparación, el modelo o1 tenía una tasa de alucinación del 16 por ciento.
El problema no se limita a OpenAI. Un popular «ranking de alucinaciones» de la empresa Vectara indica que algunos modelos de razonamiento, incluido el modelo DeepSeek-R1, vieron aumentos de dos dígitos en las tasas de alucinación en comparación con modelos anteriores de sus desarrolladores. Este tipo de modelo pasa por múltiples pasos para demostrar una línea de razonamiento antes de responder.
OpenAI sostiene que el proceso de razonamiento no es el culpable. “Las alucinaciones no son inherentemente más prevalentes en los modelos de razonamiento, aunque estamos trabajando activamente para reducir las tasas de alucinación más altas que observamos en o3 y o4-mini”, dijo un portavoz de OpenAI.
Las aplicaciones potenciales para los LLM podrían verse perjudicadas por las alucinaciones. Un modelo que afirma falsedades de manera constante y requiere verificación de hechos no será un asistente de investigación útil; un bot paralegal que cite casos ficticios podría meterse en problemas con los abogados, y un agente de atención al cliente que afirme que políticas obsoletas siguen vigentes generará dolores de cabeza para la empresa.
A pesar de esto, las empresas de IA inicialmente afirmaron que este problema se resolvería con el tiempo. De hecho, después de su lanzamiento, los modelos tendían a alucinar menos con cada actualización. Sin embargo, las altas tasas de alucinación de las versiones recientes complican esa narrativa.
El ranking de Vectara clasifica los modelos según su consistencia fáctica al resumir documentos. Esto demostró que «las tasas de alucinación son casi las mismas para los modelos de razonamiento y no razonamiento», al menos para los sistemas de OpenAI y Google. Sin embargo, puede que esta clasificación no sea la mejor manera de comparar modelos de IA.
Por un lado, confunde diferentes tipos de alucinaciones. El equipo de Vectara señaló que, aunque el modelo DeepSeek-R1 alucinó el 14.3 por ciento del tiempo, la mayoría de estas alucinaciones eran «benignas»: respuestas que están apoyadas por razonamiento lógico o conocimiento del mundo, pero que no están realmente presentes en el texto original que se le pidió resumir.
Además, este tipo de clasificación no dice nada sobre la tasa de salidas incorrectas cuando los LLM se utilizan para otras tareas. Los modelos funcionan respondiendo repetidamente a la pregunta de “cuál es la próxima palabra probable” para formular respuestas a las sugerencias, por lo que no procesan información en el sentido habitual de intentar entender qué información está disponible en un cuerpo de texto.
El término “alucinación” es problemático porque sugiere que las salidas incorrectas son una aberración que se puede mitigar, mientras que, de hecho, muchos modelos no perciben nada. Arvind Narayanan, de la Universidad de Princeton, dijo que el problema va más allá de las alucinaciones. A veces, los modelos también cometen errores al recurrir a fuentes no confiables o usar información desactualizada. Simplemente agregar más datos de entrenamiento y poder computacional no ha ayudado necesariamente.
La conclusión es que puede que tengamos que vivir con una IA propensa a errores. Narayanan sugirió que, en algunos casos, lo mejor podría ser usar tales modelos solo para tareas donde la verificación de los hechos de la respuesta de la IA sea más rápida que hacer la investigación por sí mismo. Sin embargo, lo más recomendable podría ser evitar completamente depender de los chatbots de IA para obtener información factual.