Cloudflare, el proveedor de infraestructura web, ha presentado una nueva herramienta denominada «AI Labyrinth», diseñada para contrarrestar el scraping no autorizado de datos por parte de empresas de inteligencia artificial. Este novedoso sistema tiene como objetivo servir contenido generado artificialmente a los bots que acceden sin permiso a los sitios para recolectar datos que alimentan modelos de lenguaje como ChatGPT.
Fundada en 2009, Cloudflare es conocida por ofrecer servicios de seguridad y protección a sitios web, especialmente contra ataques de denegación de servicio distribuido (DDoS) y tráfico malicioso. A diferencia de las estrategias tradicionales que simplemente bloquean a los bots, «AI Labyrinth» opta por atraer a estos últimos a un «laberinto» de páginas irrelevantes pero astutamente construidas, lo que les hace perder tiempo y recursos computacionales.
Cloudflare explica que, en lugar de bloquear las solicitudes de crawling no autorizadas, redirigirán a los bots a una serie de páginas generadas por inteligencia artificial que parecen convincente pero no contienen el contenido real del sitio. «El contenido será cuidado, utilizando hechos científicos reales en categorías como biología, física o matemáticas, para evitar la difusión de desinformación», señala la empresa.
Un honeypot más inteligente
Esta nueva herramienta de Cloudflare actúa como un «honeypot» de nueva generación, utilizando enlaces invisibles para visitantes humanos pero que pueden ser seguidos por bots que analizan el código HTML. A medida que los bots se vuelven más sofisticados, estos métodos de engaño han tenido que evolucionar. Las páginas trampa están diseñadas para ser invisibles para los usuarios reales y están configuradas para no ser indexadas por los motores de búsqueda.
Cloudflare subraya que «ningún humano real haría clic en cuatro enlaces profundos en un laberinto de tonterías generadas por inteligencia artificial». Su sistema permite identificar y clasificar a los bots no deseados.
Los datos obtenidos del «AI Labyrinth» se integran en un bucle de retroalimentación de aprendizaje automático que mejora la capacidad de detección de bots en toda la red de Cloudflare, brindando una protección continua a sus clientes. Esta función estará disponible para todos los clientes, incluso aquellos en el plan gratuito, y se puede activar con un simple clic en su dashboard.
Un problema en crecimiento
La llegada de «AI Labyrinth» se une a una serie de herramientas que buscan mitigar el scraping agresivo de datos por parte de la inteligencia artificial. Recientemente se reportó sobre «Nepenthes», un software que también busca atraer a los crawlers de IA en laberintos de contenido falso, pero con un enfoque más agresivo.
Se estima que más de 50 mil millones de solicitudes diarias a la red de Cloudflare provienen de crawlers de IA, representando casi el 1% de todo el tráfico web procesado por la empresa. Esta situación ha llevado a numerosos litigios por parte de creadores de contenido y editores que buscan proteger su trabajo.
Cloudflare reafirma que esta es solo «la primera iteración» de su estrategia de defensa utilizando IA. Se prevé que seguirá evolucionando para hacer el contenido falso más difícil de detectar y se integrará más fluidamente en las estructuras de los sitios web, continuando así la eterna partida de gato y ratón entre los sitios web y los scrapers de datos.