Google DeepMind lanza herramienta de código abierto para identificar texto generado por Inteligencia Artificial

Google DeepMind ha desarrollado SynthID, una nueva herramienta de código abierto diseñada para identificar texto generado por inteligencia artificial (IA). Esta innovación forma parte de una familia más amplia de herramientas de marca de agua para outputs generados por IA, que incluye versiones anteriores para imágenes y videos. En mayo, SynthID se integró en la app Gemini de Google y en sus chatbots en línea, y se puso a disposición de forma gratuita en la plataforma Hugging Face, un repositorio de datos y modelos de IA.

Una pila de documentos o páginas de colores brillantes, predominantemente en tonos rosa y morado, sobre un fondo púrpura. Algunos de los textos visibles incluyen palabras como "artificial" y fragmentos de palabras más grandes en negro, superpuestos sobre las páginas. Los documentos tienen patrones de cuadrados y áreas distorsionadas, sugiriendo edición o manipulación digital. La composición da la sensación de fragmentación y sobrecarga de información, relacionada con el concepto de contenido generado por IA.

Las marcas de agua se han vuelto esenciales para identificar cuándo un contenido ha sido creado por IA, lo que puede ayudar a prevenir daños como la desinformación. Según Pushmeet Kohli, vicepresidente de investigación en Google DeepMind, «ahora otros desarrolladores de IA generativa podrán usar esta tecnología para detectar si los textos provienen de sus propios modelos, facilitando la creación responsable de IA».

SynthID trabaja insertando una marca de agua invisible en el texto cuando es generado por un modelo de IA. Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) funcionan prediciendo qué palabra es más probable que siga a otra, utilizando unidades llamadas «tokens». SynthID introduce información adicional durante este proceso al ajustar la probabilidad de que ciertos tokens sean generados, sin comprometer la calidad, precisión o creatividad del texto.

Para detectar si un texto ha sido generado por IA, la herramienta compara las probabilidades de palabras en textos con y sin marca de agua. Pruebas realizadas en productos como Gemini, que han sido utilizados por millones de personas, demostraron que los usuarios no notaron diferencias en la calidad del texto.

A pesar de sus ventajas, SynthID tiene limitaciones. Es resistente a ediciones menores o recortes, pero su eficacia disminuye cuando el texto ha sido reescrito o traducido. Además, es menos fiable en respuestas a preguntas fácticas, como la capital de un país, ya que hay menos margen para alterar la probabilidad de las palabras sin cambiar el significado.

Soheil Feizi, profesor asociado de la Universidad de Maryland, menciona que la decisión de Google de hacer que SynthID sea de código abierto es un paso positivo, ya que permitirá a la comunidad de IA evaluar y mejorar su robustez. De manera similar, João Gante, ingeniero de Hugging Face, señala que esta accesibilidad mejorará la privacidad de la herramienta, ya que solo el propietario conocerá sus secretos criptográficos.

Aunque la marca de agua es una herramienta útil, no es una solución completa. Irene Solaiman, jefa de política global en Hugging Face, advierte que, al igual que la verificación de hechos en el contenido generado por humanos, el watermarking necesita ser complementado con otras salvaguardas para garantizar un ecosistema de IA más seguro.

Las últimas noticias en nuestro podcast semanal

Comentarios

No hay comentarios aún. ¿Por qué no comienzas el debate?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.