Tres días atrás, Drew DeVault, fundador y CEO de SourceHut, publicó un artículo en su blog titulado «Por favor, dejen de externalizar sus costos directamente en mi cara», donde se quejaba de que las empresas de modelos de lenguaje (LLM) estaban rastreando datos sin respetar el archivo robots.txt, causando interrupciones severas en la infraestructura de SourceHut.
Drew comentó que muchos de sus amigos administradores de sistemas estaban lidiando con los mismos problemas, y que cada vez que se sentaban a socializar con ellos, no pasaba mucho tiempo antes de que empezaran a quejarse acerca de los bots. Esta desespero era palpable.
Ayer por la mañana, la infraestructura de KDE GitLab fue abrumada por otro rastreador de IA, con direcciones IP provenientes de Alibaba, lo que hizo que GitLab fuera temporalmente inaccesible para los desarrolladores de KDE. Esto no es un caso aislado, ya que el problema de los rastreadores de IA se ha intensificado.
Las herramientas de código abierto (FOSS) dependen de la colaboración pública, y, a diferencia de las empresas privadas, estas comunidades están viendo un aumento adicional de la carga debido a los scrapers de IA. Drew detalló que los crawlers de LLM no respetan las normas de robots.txt y acceden a endpoints costosos como git blame
, cada página de cada historial de Git y cada commit en los repositorios, utilizando agentes de usuario aleatorios de miles de IPs diferentes. Esto complica la identificación de las mitigaciones adecuadas.
Según Drew, varias tareas prioritarias han sido retrasadas durante semanas debido a estas interrupciones, además de que los usuarios se ven afectados ocasionalmente, dado que es complicado distinguir entre bots y humanos. Esta situación ha llevado a ocasionales caídas en SourceHut.
En consecuencia, KDE decidió implementar un sistema que limitó las solicitudes de usuarios no registrados para que no pudieran ver solicitudes de fusión y commits, un movimiento que ha afectado también a los usuarios legítimos. Como solución a largo plazo, se pasaron a usar Anubis, que presenta un reto a los navegadores, obligando a los crawlers a realizar un trabajo matemático para obtener acceso.
Otro proyecto que ha enfrentado problemas similares en la última semana es Inkscape; sus desarrolladores han comenzado a bloquear direcciones IP de empresas que ignoran su configuración de araña y han construido listas de bloqueos masivos para combatir la situación. Martin Owens, uno de los desarrolladores, indicó que él y sus compañeros han decidido que cualquier empresa grande vinculada a la IA podría no tener acceso a su sitio web.
El impacto es considerable; según datos compartidos por otras comunidades, un porcentaje abrumador de solicitudes que reciben provienen de bots. En un ejemplo, Jonathan Corbet, quien dirige la fuente de noticias de FOSS LWN, comentó que una pequeña fracción de su tráfico proviene de lectores humanos, mientras que la mayoría está siendo consumido por estas arañas.
Las organizaciones de FOSS están tratando de implementar proyectos como «ai.robots.txt», un esfuerzo colaborativo para crear listas de crawlers asociados con empresas de IA. Al rastrear y limitar estas arañas, esperan proteger su infraestructura que, por ser de naturaleza abierta, es más susceptible a abusos.
Finalmente, los reportes de errores generados por la IA han empeorado la situación, ya que suelen ser de baja calidad y pueden tomar considerable tiempo a los desarrolladores para refutarlos. Esto representa una carga adicional en un entorno que ya sufre por la falta de recursos.
El tiempo dirá cómo reaccionarán las comunidades de código abierto ante este creciente desafío, pero está claro que enfrentan una batalla constante para mantener la integridad de su infraestructura y su capacidad de funcionamiento frente a estas amenazas emergentes.