Un reciente estudio de Microsoft colocó a los historiadores en el segundo lugar de trabajos más susceptibles a ser «aumentados» por la inteligencia artificial, causando alarma entre los profesionales de la historia. Pero después de someter varios chatbots de IA a pruebas rigurosas sobre hechos históricos específicos, la conclusión es clara: los robots están muy lejos de poder hacer el trabajo de un historiador correctamente.
El experimento: películas presidenciales como campo de pruebas
Para evaluar la precisión de la IA generativa, el periodista Matt Novak utilizó su fascinante área de especialización: las películas que han visto los presidentes estadounidenses mientras ocupaban el cargo. Con más de una década investigando este tema peculiar pero rico en datos, incluyendo solicitudes FOIA y acceso a archivos presidenciales, Novak tenía el conocimiento perfecto para poner a prueba a los chatbots.
La metodología fue simple pero efectiva: hacer preguntas sobre fechas específicas en las que varios presidentes vieron películas, mezclando información fácilmente encontrable en Google con datos más oscuros que requieren investigación archivística seria.
GPT-5 de OpenAI: un fracaso absoluto
El nuevo modelo GPT-5, promocionado por el CEO Sam Altman como «un experto legítimo a nivel de doctorado en cualquier área», falló estrepitosamente. Cuando se le preguntó sobre películas vistas por presidentes como Woodrow Wilson, Dwight Eisenhower, Richard Nixon, Ronald Reagan y otros en fechas específicas, ChatGPT respondió sistemáticamente que no podía encontrar registros de ninguna película vista en esas fechas.
La ironía es que ChatGPT no mintió, simplemente no sabía las respuestas, lo que podría considerarse una mejora respecto a su tendencia histórica de inventar información.
Microsoft Copilot: creatividad peligrosa
Copilot demostró ser particularmente problemático al intentar «llenar los vacíos» cuando no tenía información. Cuando se le preguntó qué película vió Eisenhower el 11 de agosto de 1954, el bot:
- Respuesta rápida: Afirmó incorrectamente que fue The Unconquered, un documental sobre Helen Keller
- Investigación profunda: Generó más de 3,500 palabras especulando que probablemente fue Suddenly, una película que ni siquiera se había estrenado en esa fecha
La respuesta correcta era River of No Return, protagonizada por Marilyn Monroe y Robert Mitchum, información disponible en los registros del proyeccionista de la Casa Blanca de los años 50.
Grok de xAI: aciertos por casualidad
Curiosamente, Grok fue el único que respondió correctamente sobre la película de Eisenhower, pero no por las razones correctas. El chatbot había entrenado con tweets de X, incluyendo una publicación de 2019 del proyecto personal de Novak «@PresidentMovies» que mencionaba exactamente esa información.
Esto plantea una pregunta inquietante: ¿qué pasaría si esa cuenta hubiera publicado información falsa? Grok probablemente la habría repetido como verdad.
Errores sistemáticos en datos «fáciles»
Incluso con preguntas sobre información más accesible, los resultados fueron desalentadores:
Richard Nixon y Patton
- Pregunta: ¿Qué película vio Nixon el 12 de febrero de 1971?
- Respuesta correcta: The Great Chase (documentada en el libro Nixon at the Movies de 2004)
- Error de Copilot: Afirmó que fue Patton, proporcionando incluso una fuente que no contenía esa información
Ronald Reagan confundido
Copilot creó tablas elaboradas con información sobre las películas de Reagan en junio de 1985, pero incluyó múltiples errores:
- Ubicaciones incorrectas (Casa Blanca vs. Camp David)
- Fechas equivocadas para películas específicas
- Películas completamente inventadas para ciertas fechas
Las alucinaciones de Perplexity
Perplexity afirmó que George H.W. Bush vio Batman el 8 de agosto de 1989, citando como fuente una página de Wikipedia sobre «presidentes por edad» que no contenía información sobre Batman.
¿Por qué fallan tanto?
Los errores revelan problemas fundamentales en cómo funcionan estos sistemas:
- Confusión de contexto: Los bots mezclan información relacionada pero no conectada
- Relleno especulativo: Cuando no saben, inventan respuestas «plausibles»
- Fuentes poco confiables: Entrenan con datos de internet sin verificar su exactitud
- Falta de comprensión: No distinguen entre correlación y causalidad
Más allá de los datos: el verdadero trabajo del historiador
Las pruebas de Novak solo tocaron una fracción minúscula del trabajo real de un historiador. Los profesionales de la historia no solo recopilan hechos existentes, sino que:
- Descubren nueva información en archivos
- Realizan entrevistas con testigos y expertos
- Analizan fuentes primarias contradictorias
- Aportan interpretación y contexto original
- Verifican información cruzando múltiples fuentes
Como demostró el caso de Reagan viendo Topaz en Camp David (no en la Casa Blanca como indicaba un registro oficial), los historiadores deben actuar como detectives cuando las fuentes primarias contienen errores.
La lección fundamental
Aunque millones de personas encuentran útiles las herramientas de IA para diversas tareas, el experimento demuestra que estos sistemas están muy lejos de ser omniscientes. Sam Altman, CEO de OpenAI, reconoció recientemente que el término «inteligencia general artificial» (AGI) ya no es útil porque nadie puede ponerse de acuerdo sobre qué significa.
La recomendación es clara: antes de confiar en cualquier herramienta de IA para trabajo importante, pruébala con información que conozcas bien. Solo así podrás calibrar si realmente sabe lo que afirma saber. Los historiadores pueden dormir tranquilos, al menos por ahora. Los robots aún no están listos para escribir la historia.