En un reciente artículo de la revista Surfaces and Interfaces, se planteaba la cuestión de si el texto sobre tecnología de baterías había sido escrito por un humano o una máquina. Este es un interrogante cada vez más común entre los lectores de trabajos científicos.
Los grandes modelos de lenguaje (LLM, por sus siglas en inglés) han demostrado ser lo suficientemente buenos para ayudar en la redacción de artículos científicos, agilizando el proceso especialmente para aquellos cuyo idioma nativo no es el inglés. Sin embargo, su uso también implica riesgos, como la reproducción de sesgos y la generación de información incorrecta.
Un estudio reciente de las universidades de Tübingen y Northwestern, publicado en arXiv, sugiere que al menos uno de cada diez nuevos artículos científicos contiene material producido por un LLM. Esto podría significar que más de 100,000 artículos se publicarán este año con asistencia de LLM. En ciertos campos como la informática, se estima que más del 20% de los resúmenes de investigación contienen texto generado por estos modelos, y entre los científicos informáticos chinos, la cifra es de uno de cada tres.
Detectar el texto generado por LLM no es sencillo. Hasta ahora, los investigadores han confiado en algoritmos de detección o en la búsqueda de palabras sospechosas favorecidas por los LLM, como «pivotal» o «realm». Sin embargo, ambos métodos dependen de datos de referencia que son difíciles de recopilar debido a la evolución del lenguaje y de los modelos.
El nuevo método propuesto por Dmitry Kobak y su equipo prescinde de la necesidad de estos datos de referencia. Inspirado en el análisis demográfico de muertes en exceso, el método examina el uso anormal de palabras en los resúmenes científicos. Analizaron los resúmenes de todos los artículos en inglés disponibles en PubMed entre enero de 2010 y marzo de 2024, observando que, a partir de 2024, ciertas palabras relacionadas con el estilo de redacción, como «delves», «potential» e «insights», aumentaron significativamente en frecuencia.
Este incremento en el uso de ciertas palabras es atribuido a la ayuda de LLM. Estimaron que al menos el 10% de los resúmenes probablemente tuvieron asistencia de LLM. Este fenómeno varía entre disciplinas y geografías, siendo más frecuente en informática y menos en ecología. Además, los científicos de países como Taiwán, Corea del Sur, Indonesia y China son los que más utilizan estos modelos, mientras que los de Gran Bretaña y Nueva Zelanda lo hacen con menos frecuencia.
Los riesgos asociados con el uso de LLM en la redacción científica son considerables. Estos modelos aún presentan problemas en la comunicación precisa de incertidumbres y tienen tendencia a generar «alucinaciones» o a reproducir textos sin atribución adecuada. Además, tienden a citar trabajos muy referenciados, lo que podría reforzar sesgos existentes y limitar la creatividad en la investigación.
Las políticas académicas sobre el uso de LLM están en constante cambio. Algunas revistas prohíben su uso, mientras que otras lo permiten bajo ciertas condiciones. Por ejemplo, Science y Nature permiten el uso de LLM si se reconoce claramente y se detalla en la sección de métodos del artículo.