Las alucinaciones o errores en las respuestas generadas por chatbots han sido un desafío inherente al funcionamiento de los modelos de inteligencia artificial (IA) desde su creación. Estos fallos son especialmente problemáticos para empresas como Google, que están apostando fuerte por la IA, ya que pueden hacer que las respuestas sean poco fiables. Para enfrentar este problema, Google ha presentado una nueva herramienta llamada DataGemma, que busca mejorar la precisión y confiabilidad de los modelos de lenguaje.
DataGemma utiliza dos métodos clave para ayudar a los modelos de lenguaje a verificar sus respuestas frente a datos fiables y citar sus fuentes de manera más transparente.
El primer método es la Generación Intercalada con Recuperación (RIG, por sus siglas en inglés), que actúa como un sistema de verificación de hechos. Cuando un usuario plantea una pregunta, el modelo genera una respuesta inicial o «primer borrador». Luego, RIG compara partes de esta respuesta con datos presentes en Data Commons, una extensa base de datos que Google mantiene con estadísticas de fuentes confiables como la ONU o los Centros para el Control y Prevención de Enfermedades (CDC). Si encuentra errores, reemplaza la información incorrecta con datos correctos y cita las fuentes de donde provienen.
El segundo método es la Generación Aumentada con Recuperación (RAG), que se emplea comúnmente en otros modelos de lenguaje. En este caso, el modelo primero revisa qué datos dentro de Data Commons pueden ser útiles para responder una pregunta, y luego construye la respuesta basándose en esos datos, también citando las fuentes correspondientes.
Según Prem Ramaswami, jefe de Data Commons en Google, el objetivo de DataGemma es mejorar el razonamiento de los modelos de lenguaje conectándolos con datos estadísticos del mundo real. Esto permitirá crear una IA más confiable y precisa.
Por ahora, DataGemma solo está disponible para investigadores, pero podría expandirse en el futuro tras más pruebas. Si cumple con las expectativas, podría ser una herramienta crucial en los planes de Google para integrar IA de manera más profunda en su motor de búsqueda.
A pesar de las promesas, DataGemma presenta algunas limitaciones. En primer lugar, su utilidad depende de que los datos relevantes estén presentes en Data Commons, que es más una base de datos estadística que una enciclopedia. Por ejemplo, puede proporcionar el PIB de Irán, pero no la fecha de una batalla histórica o el lanzamiento más reciente de una celebridad.
Además, los resultados actuales no son perfectos. En las pruebas con el método RIG, solo alrededor del 58% de las respuestas eran correctas, lo cual es una mejora respecto a los modelos anteriores que tenían tasas de precisión entre el 5% y el 17%. El método RAG, por su parte, arrojó respuestas incorrectas entre un 6% y un 20% de las veces.
Ramaswami asegura que la precisión de DataGemma mejorará con el tiempo, a medida que se entrene con más datos. Actualmente, solo ha sido probado con unas 700 preguntas, pero el plan es expandir este conjunto a millones para refinar el modelo.