La reciente decisión de Google de deshabilitar la renderización de JavaScript para bots que utilizan su motor de búsqueda ha generado un impacto significativo en la forma en que los modelos de lenguaje de gran tamaño (LLM) acceden a los datos web. Cuando los navegadores web renderizan JavaScript, crean contenido dinámico e interactivo que cambia según las acciones del usuario. Sin embargo, al desactivar JavaScript, los sitios web vuelven a su estructura básica de HTML, lo que afecta la interacción de los modelos de IA con el contenido web.
Los modelos de lenguaje como ChatGPT y Llama acceden al contenido web de manera similar a cuando JavaScript está desactivado, es decir, ven la estructura básica de HTML en lugar de la experiencia interactiva completa. Esto plantea un dilema para Google, que ha utilizado históricamente JavaScript para mejorar sus resultados de búsqueda, haciéndolos más interactivos y dinámicos. La empresa busca equilibrar la accesibilidad de su contenido para los usuarios humanos mientras limita la extracción sistemática y el uso indebido de sus datos por parte de los modelos de IA.
En el contexto de la optimización para motores de búsqueda (SEO) y la recopilación de datos, Googlebot, el rastreador de Google, ha sido configurado para no renderizar JavaScript en archivos o páginas bloqueadas. Esto significa que el contenido JavaScript no se indexará en el sistema de Google si está bloqueado, lo que puede afectar la calidad de las respuestas de los modelos de lenguaje que dependen de estos datos. Este cambio ha generado preocupaciones sobre la capacidad de los modelos de IA para acceder a datos de calidad, lo que podría resultar en respuestas incorrectas o insuficientes.
La competencia entre Google y las empresas de IA ha sido descrita como una «carrera armamentista», donde cada parte implementa nuevas estrategias para acceder o proteger el contenido web. Google, al limitar el acceso a sus resultados de búsqueda, busca mantener el control sobre un conjunto de datos valioso que podría ser utilizado para entrenar modelos de IA. Al mismo tiempo, la empresa está desarrollando sus propios modelos de IA, lo que la coloca en una posición compleja de proteger sus datos mientras avanza en sus capacidades de IA.
El debate sobre el uso de JavaScript y su impacto en el acceso a los datos web también afecta a los propietarios de sitios web. Las políticas de JavaScript pueden aumentar los costos de operación, ya que cada solicitud de página requiere que el servidor renderice dinámicamente el HTML, consumiendo más recursos. Además, el acceso masivo de rastreadores puede saturar los servidores, como ocurrió con la plataforma Triplegangers, que experimentó interrupciones severas debido a la sobrecarga de solicitudes de un rastreador web. Este escenario subraya la importancia de gestionar adecuadamente el acceso de bots para proteger los recursos del sitio web y optimizar los costos.