Google DeepMind ha desarrollado SynthID, una nueva herramienta de código abierto diseñada para identificar texto generado por inteligencia artificial (IA). Esta innovación forma parte de una familia más amplia de herramientas de marca de agua para outputs generados por IA, que incluye versiones anteriores para imágenes y videos. En mayo, SynthID se integró en la app Gemini de Google y en sus chatbots en línea, y se puso a disposición de forma gratuita en la plataforma Hugging Face, un repositorio de datos y modelos de IA.
Las marcas de agua se han vuelto esenciales para identificar cuándo un contenido ha sido creado por IA, lo que puede ayudar a prevenir daños como la desinformación. Según Pushmeet Kohli, vicepresidente de investigación en Google DeepMind, «ahora otros desarrolladores de IA generativa podrán usar esta tecnología para detectar si los textos provienen de sus propios modelos, facilitando la creación responsable de IA».
SynthID trabaja insertando una marca de agua invisible en el texto cuando es generado por un modelo de IA. Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) funcionan prediciendo qué palabra es más probable que siga a otra, utilizando unidades llamadas «tokens». SynthID introduce información adicional durante este proceso al ajustar la probabilidad de que ciertos tokens sean generados, sin comprometer la calidad, precisión o creatividad del texto.
Para detectar si un texto ha sido generado por IA, la herramienta compara las probabilidades de palabras en textos con y sin marca de agua. Pruebas realizadas en productos como Gemini, que han sido utilizados por millones de personas, demostraron que los usuarios no notaron diferencias en la calidad del texto.
A pesar de sus ventajas, SynthID tiene limitaciones. Es resistente a ediciones menores o recortes, pero su eficacia disminuye cuando el texto ha sido reescrito o traducido. Además, es menos fiable en respuestas a preguntas fácticas, como la capital de un país, ya que hay menos margen para alterar la probabilidad de las palabras sin cambiar el significado.
Soheil Feizi, profesor asociado de la Universidad de Maryland, menciona que la decisión de Google de hacer que SynthID sea de código abierto es un paso positivo, ya que permitirá a la comunidad de IA evaluar y mejorar su robustez. De manera similar, João Gante, ingeniero de Hugging Face, señala que esta accesibilidad mejorará la privacidad de la herramienta, ya que solo el propietario conocerá sus secretos criptográficos.
Aunque la marca de agua es una herramienta útil, no es una solución completa. Irene Solaiman, jefa de política global en Hugging Face, advierte que, al igual que la verificación de hechos en el contenido generado por humanos, el watermarking necesita ser complementado con otras salvaguardas para garantizar un ecosistema de IA más seguro.