Los modelos de lenguaje, herramientas de inteligencia artificial entrenadas para procesar y generar texto, están siendo cada vez más utilizados en una variedad de aplicaciones, desde la educación hasta la justicia penal. Sin embargo, un reciente estudio ha puesto de manifiesto un grave problema: estos modelos no solo perpetúan estereotipos raciales de manera explícita, sino que también albergan una forma más sutil y encubierta de racismo, conocida como «prejuicio dialectal». Este tipo de sesgo se manifiesta a través de asociaciones negativas con el inglés afroamericano (AAE), un dialecto comúnmente utilizado por los descendientes de afroamericanos en Estados Unidos.
El estudio revela que los prejuicios raciales ocultos en estos modelos pueden ser incluso más dañinos que los estereotipos explícitos. A través de una técnica llamada «matched guise probing», los investigadores pudieron evidenciar cómo estos modelos de lenguaje asocian el AAE con estereotipos raciales negativos que históricamente se han aplicado a los afroamericanos, especialmente aquellos que datan de antes del movimiento por los derechos civiles en Estados Unidos. De manera alarmante, estos estereotipos son más negativos que los más severos registrados en estudios experimentales sobre actitudes humanas hacia los afroamericanos.
El prejuicio dialectal identificado tiene implicaciones significativas en áreas críticas como el empleo y el sistema judicial. Por ejemplo, cuando los modelos de lenguaje analizan textos en AAE, tienden a asignar a los hablantes trabajos menos prestigiosos que a aquellos que usan el inglés americano estandarizado (SAE). Ocupaciones como psicólogo, profesor o economista, que generalmente requieren un alto nivel de educación, están mucho menos asociadas con hablantes de AAE. En cambio, estos modelos tienden a asociar el AAE con trabajos en música, entretenimiento o de baja calificación, como cocinero o guardia de seguridad. Este patrón no solo refleja, sino que también refuerza estereotipos que han existido durante décadas sobre la competencia e inteligencia de los afroamericanos.
En el ámbito judicial, los resultados del estudio son igualmente preocupantes. En un experimento donde se pidió a los modelos de lenguaje que tomaran decisiones sobre casos judiciales basándose únicamente en declaraciones hechas en AAE o SAE, los resultados mostraron que los modelos eran más propensos a condenar a los acusados que usaban AAE y, en casos de asesinato en primer grado, a recomendar la pena de muerte con mayor frecuencia para ellos en comparación con aquellos que utilizaban SAE. Este hallazgo sugiere que el uso del AAE por parte de un acusado podría influir negativamente en el juicio de los modelos de lenguaje, lo cual es especialmente preocupante dado el creciente uso de la inteligencia artificial en procesos judiciales.
Otra área de investigación se centró en cómo los modelos de lenguaje gestionan los estereotipos raciales cuando se les pregunta directamente sobre los afroamericanos. A diferencia de los estereotipos encubiertos, cuando se trata de preguntas directas, los modelos tienden a proporcionar respuestas más positivas sobre los afroamericanos, como asociarlos con atributos positivos. Sin embargo, este contraste entre los estereotipos encubiertos y los explícitos es aún más evidente en los modelos entrenados con retroalimentación humana (HF), como GPT-4. Estos modelos, a pesar de su capacidad para generar asociaciones explícitamente positivas, ocultan profundas asociaciones negativas cuando se analizan sus respuestas en el contexto de dialectos específicos como el AAE.
El estudio también analiza los intentos actuales de mitigar los prejuicios raciales en los modelos de lenguaje. Dos de los enfoques más comunes son aumentar el tamaño del modelo y entrenar con retroalimentación humana. Sin embargo, ambos métodos han mostrado ser ineficaces para resolver el problema del prejuicio dialectal. Aumentar el tamaño del modelo mejora su capacidad para procesar el AAE, pero también aumenta el nivel de prejuicio encubierto. Del mismo modo, la retroalimentación humana parece reducir los prejuicios raciales explícitos, pero no tiene un impacto significativo en los estereotipos encubiertos. Esto sugiere que las estrategias actuales de mitigación pueden ser insuficientes para abordar la complejidad del racismo encubierto en los modelos de lenguaje.
Además, el estudio conecta los hallazgos con prejuicios raciales más amplios en la sociedad contemporánea de Estados Unidos. A partir del movimiento por los derechos civiles, el racismo ha adoptado formas más sutiles y encubiertas, alejándose de las expresiones abiertamente racistas del pasado. Este cambio social se refleja en cómo los modelos de lenguaje, que son entrenados con grandes cantidades de datos extraídos de internet, reproducen estas actitudes raciales inconsistentes. Mientras que los estereotipos explícitos pueden haber disminuido, los prejuicios más profundos y sutiles, como el prejuicio dialectal, persisten y son amplificados por estos modelos de inteligencia artificial.
El estudio también indaga en las posibles fuentes de este prejuicio en los modelos de lenguaje. Los modelos son entrenados con grandes corpus de texto extraídos de la web, que contienen estereotipos raciales tanto explícitos como encubiertos. Aunque existen mecanismos para filtrar el racismo explícito durante el entrenamiento, no hay medidas efectivas para eliminar los prejuicios encubiertos, como el prejuicio dialectal. Esto permite que estas formas de racismo pasen desapercibidas y se integren en los modelos de lenguaje, afectando sus decisiones de manera significativa.
Finalmente, los autores del estudio subrayan las graves consecuencias de estos prejuicios encubiertos, no solo en términos de representación, sino también en la asignación de recursos. Los modelos de lenguaje que exhiben prejuicio dialectal podrían estar contribuyendo a la perpetuación de desigualdades raciales, especialmente en áreas donde ya se están utilizando para tomar decisiones críticas, como el empleo y la justicia penal. A medida que la inteligencia artificial se integra más en estos campos, es probable que los daños causados por el prejuicio dialectal aumenten, perpetuando la discriminación racial experimentada por generaciones de afroamericanos.