Los pequeños modelos de lenguaje (SLMs, por sus siglas en inglés) ofrecen una solución eficaz y rentable para las comunidades indígenas, ya que reducen los requisitos de datos y computación al tiempo que mejoran la precisión de los resultados a través de conjuntos de datos específicos y ajustados al contexto. Sin una participación activa de las comunidades, los desarrolladores corren el riesgo de crear modelos que carezcan de especificidad y precisión en el contexto local. Es crucial que se aseguren de que los modelos de lenguas indígenas se implementen de manera responsable, representando con precisión las sutilezas culturales y fomentando la cooperación con los líderes de las comunidades indígenas.
La preservación de las lenguas indígenas es fundamental para la identidad cultural y la transmisión de perspectivas y tradiciones únicas, sin embargo, al menos el 40% de los aproximadamente 6,700 idiomas del mundo están actualmente amenazados. La UNESCO ha declarado el periodo 2022-2032 como el «Decenio Internacional de las Lenguas Indígenas», con la esperanza de contribuir a la revitalización de estas lenguas y mejorar el acceso a los recursos lingüísticos.
Aplicaciones de modelos de lenguas indígenas
Las siguientes iniciativas han adaptado con éxito modelos específicos para lenguas indígenas:
Meta lanzó el modelo de traducción automática de código abierto No Language Left Behind (NLLB-200), que soporta 200 lenguas, incluyendo aquellas con recursos limitados de traducción, aunque a menudo lucha por capturar las complejidades del contexto local.
Lelapa AI ha desarrollado el modelo InkubaLM-0.4B, entrenado con 1.9 mil millones de tokens que incluyen lenguas africanas como isiZulu y Swahili.
IBM Research Brasil y la Universidad de São Paulo trabajan en preservar lenguas indígenas brasileñas como el Guarani Mbya, haciendo hincapié en la co-creación con comunidades indígenas y abordando preocupaciones sobre la exposición cultural.
Proyectos han aplicado el modelo XLSR de Meta para desarrollar sistemas de reconocimiento de voz para el pueblo indígena Orang Rimba en Indonesia.
A pesar de estos avances, las limitaciones de recursos y financiación siguen siendo obstáculos críticos para el desarrollo sostenible de tecnologías lingüísticas. La escasez de datos textuales y orales limita el entrenamiento de modelos, y las complejidades lingüísticas, como la estructura polisinética del idioma Mi’kmaq, representan desafíos adicionales.
Colaboración con comunidades indígenas
Es fundamental garantizar el desarrollo ético de los modelos de lenguas indígenas para proteger el conocimiento indígena de la explotación. La participación de las comunidades en la recopilación de datos, el entrenamiento y la implementación de modelos asegura que los resultados respeten el conocimiento tradicional y se alineen con los valores comunitarios.
Como ejemplo significativo, Te Hiku Media, una pequeña estación de radio en Nueva Zelanda, se negó a un acuerdo de transcripción propuesto por una empresa de traducción, argumentando que el verdadero dominio de los datos significa que solo los maoríes deberían beneficiarse de su lengua. En su lugar, crearon acuerdos de licencia de datos para asegurar que los proyectos utilizando datos maoríes beneficien a la comunidad en su conjunto.
Mirando hacia el futuro
Con el avance de los SLMs en contextos indígenas, es necesaria más investigación para evaluar su efectividad en diversas configuraciones lingüísticas y culturales. Iniciativas como DeepSeek han destacado por desarrollar modelos más pequeños y accesibles, pero la falta de transparencia sobre el origen de los datos y la participación de las comunidades indígenas plantea desafíos éticos importantes.
El desarrollo de modelos de lenguas indígenas puede enseñar lecciones valiosas para el despliegue más amplio de SLMs. La adaptación de conjuntos de datos específicos a nivel comunitario puede resultar en modelos más precisos y sostenibles, destacando la necesidad de una colaboración genuina entre desarrolladores de tecnología y comunidades indígenas para una innovación responsable y con impacto.