La cortesía occidental de los sistemas de inteligencia artificial choca con los códigos sociales no occidentales, revelando sesgos culturales profundos en la tecnología
En las calles de Teherán, cuando un taxista rechaza el pago de un pasajero diciendo «sé mi invitado esta vez», acepta su oferta sería un error cultural garrafal. La etiqueta persa exige que el cliente insista en pagar al menos tres veces antes de que el conductor acepte finalmente el dinero. Esta intrincada danza social, conocida como taarof, permea las interacciones cotidianas en la cultura iraní, pero representa un desafío aparentemente insalvable para los modelos de inteligencia artificial más avanzados del mundo.
Una investigación publicada este mes bajo el título «We Politely Insist: Your LLM Must Learn the Persian Art of Taarof» expone una falla fundamental en los sistemas de IA contemporáneos. Los principales modelos de lenguaje de OpenAI, Anthropic y Meta navegan correctamente las situaciones que involucran taarof apenas entre el 34 y 42 por ciento de las ocasiones, una cifra que palidece frente al 82 por ciento de aciertos que logran los hablantes nativos de persa.
El arte de decir lo contrario de lo que se piensa
El taarof constituye un elemento central de la etiqueta persa, un sistema de cortesía ritualizada donde las palabras pronunciadas frecuentemente divergen del significado real. Esta práctica se manifiesta en intercambios codificados: ofertas repetidas a pesar de rechazos iniciales, declinación de regalos mientras quien los ofrece insiste, y deflección de cumplidos mientras la contraparte los reafirma.
Esta «lucha verbal educada», como la describen los investigadores, implica una delicada coreografía de oferta y rechazo, insistencia y resistencia, que moldea las reglas implícitas sobre la expresión de generosidad, gratitud y solicitudes en la sociedad iraní.
La medición del fracaso cultural
El estudio, liderado por Nikta Gohari Sadr de la Universidad de Brock en colaboración con investigadores de la Universidad de Emory, introduce «TAAROFBENCH», el primer sistema de medición diseñado específicamente para evaluar la competencia cultural de los sistemas de IA en estas prácticas sociales complejas.
Los resultados revelan cómo los modelos más recientes adoptan por defecto la franqueza característica del estilo occidental, ignorando completamente las señales culturales que gobiernan las interacciones cotidianas de millones de hablantes de persa a nivel mundial. Grandes modelos como GPT-4o, Claude 3.5 Haiku, Llama 3, DeepSeek V3 y Dorna —una variante de Llama 3 ajustada específicamente para persa— mostraron deficiencias similares.
La paradoja de la cortesía artificial
Los investigadores descubrieron una contradicción reveladora al examinar si la «educación» convencional era suficiente para la competencia cultural. Utilizando Polite Guard, un clasificador desarrollado por Intel para calificar la cortesía textual, encontraron que mientras el 84.5 por ciento de las respuestas de Llama 3 se registraron como «educadas» o «algo educadas», solo el 41.7 por ciento cumplía realmente con las expectativas culturales persas en escenarios de taarof.
Esta brecha de 42.8 puntos porcentuales ilustra cómo una respuesta puede ser simultáneamente cortés desde una perspectiva occidental y culturalmente insensible desde otra.
El poder del idioma nativo
Los hallazgos más sorprendentes emergieron cuando los investigadores reformularon las preguntas en persa en lugar de inglés. DeepSeek V3 experimentó el salto más dramático, pasando del 36.6 al 68.6 por ciento de precisión. GPT-4o mostró ganancias similares con una mejora de 33.1 puntos porcentuales, mientras que Llama 3 y Dorna registraron incrementos más modestos.
Este fenómeno sugiere que el cambio de idioma activa diferentes patrones en los datos de entrenamiento que coinciden mejor con los esquemas de codificación cultural persa, revelando la naturaleza fragmentada del conocimiento cultural en estos sistemas.
Sesgos de género inesperados
La investigación también desenterró patrones específicos de género en las respuestas de los modelos. Todos los sistemas probados obtuvieron puntuaciones más altas al interactuar con usuarias femeninas que masculinas. GPT-4o, por ejemplo, alcanzó un 43.6 por ciento de precisión con mujeres frente a un 30.9 por ciento con hombres.
Los modelos frecuentemente respaldaron sus respuestas con estereotipos de género extraídos de sus datos de entrenamiento, haciendo afirmaciones como «los hombres deberían pagar» o «las mujeres no deberían quedarse solas», incluso cuando las normas del taarof se aplican independientemente del género.
¿Es posible enseñar cultura a las máquinas?
Los investigadores no se limitaron a documentar el problema. Sus experimentos con métodos de entrenamiento dirigido produjeron resultados alentadores. La Optimización Directa de Preferencias duplicó el rendimiento de Llama 3, elevando la precisión del 37.2 al 79.5 por ciento. El ajuste fino supervisado generó una ganancia del 20 por ciento, mientras que el aprendizaje contextual simple con apenas 12 ejemplos mejoró el rendimiento en 20 puntos porcentuales.
Implicaciones globales de la ceguera cultural
Estos descubrimientos revelan una dimensión más profunda sobre cómo los sistemas de IA codifican y perpetúan suposiciones culturales occidentales. Los investigadores advierten que es probable que los modelos de lenguaje posean numerosos puntos ciegos culturales que aún no han sido identificados, pero que podrían tener consecuencias significativas conforme estos sistemas se utilizan cada vez más para facilitar comunicación intercultural.
«Los errores culturales en entornos de alta consecuencia pueden descarrilar negociaciones, dañar relaciones y reforzar estereotipos», señalan los autores del estudio. En un mundo donde los sistemas de IA operan cada vez más en contextos globales, esta ceguera cultural representa una limitación fundamental que la mayoría en Occidente desconoce por completo.
La investigación sobre el taarof persa no solo expone las limitaciones actuales de la inteligencia artificial, sino que también plantea preguntas más amplias sobre la responsabilidad de crear sistemas verdaderamente inclusivos que respeten la rica diversidad de normas sociales que definen las culturas humanas.