
Durante años, el desarrollo de la inteligencia artificial se ha concentrado en unas pocas lenguas dominantes. Sin embargo, en distintos contextos, comunidades, universidades e instituciones han comenzado a utilizar estas mismas herramientas para documentar, transcribir y revitalizar lenguas que históricamente han sido excluidas del entorno digital. Estos esfuerzos muestran que la inteligencia artificial no solo puede reflejar las desigualdades lingüísticas existentes, sino también convertirse en una herramienta para preservarlas y difundirlas.
En este artículo discutiré algunos ejemplos que muestran cómo la IA ya está siendo utilizada para fortalecer la diversidad lingüística en distintas partes del mundo, y qué implicaciones tiene esto para el futuro de lenguas como las que se hablan en México y América Latina.
Las lenguas indígenas en México
En México se hablan 68 lenguas originarias, lo que sitúa al país entre las diez naciones con mayor diversidad lingüística del mundo y en segundo lugar en América Latina. Estas lenguas, además, cuentan con múltiples variantes que no son mutuamente inteligibles. Por ejemplo, un hablante zapoteco del Istmo y otro de la Sierra Norte (ambos de Oaxaca) pueden presentar diferencias mayores que las que encontraremos con algún boludo argentino que vive a más de 7000 km de distancia.
Por cierto; son “lenguas”, no “dialectos”. Una lengua es un sistema completo de comunicación con su propia gramática, sintaxis, fonología y léxico. Todas ellas son características que cumplen las lenguas originarias de nuestro país.
La Constitución mexicana no establece al español como idioma oficial y reconoce plenamente a las lenguas indígenas. Sin embargo, históricamente, sus hablantes han enfrentado discriminación. Por ejemplo, existen casos documentados de esterilizaciones sin consentimiento informado adecuado o procesos judiciales sin traducción.
Frases como “que todos aprendan español o inglés” reflejan una visión instrumental del lenguaje que ignora dimensiones más profundas. Yásnaya Aguilar, escritora y activista de la diversidad lingüística, lo explica bien: “Cada lengua es una ventana distinta para mirar el mundo, una estructura gramatical que organiza la realidad de maneras que otras lenguas no pueden. Cuando una lengua muere, se cierra una ventana, se apaga una forma de pensamiento, se pierde una manera de ser humano”.
Preservar las lenguas indígenas es, por tanto, una forma de defender la pluralidad de maneras de pensar y comprender el mundo. Al mismo tiempo, es un asunto de derechos humanos, pues cuando las personas se ven obligadas a abandonar su lengua para evitar la exclusión o acceder a oportunidades, se vulneran sus derechos a la igualdad, a la no discriminación y a la identidad cultural
En este contexto, la inteligencia artificial está comenzando a utilizarse como una herramienta concreta para documentar, fortalecer y revitalizar lenguas que durante décadas han sido marginadas
IA aplicada a la documentación y transcripción del Māori
En Nueva Zelanda, el idioma maorí (te reo Māori) estuvo durante décadas en riesgo de desaparecer, tras generaciones en las que su uso fue desplazado por el inglés en la educación, el gobierno y la vida pública. Hoy, una organización indígena llamada Te Hiku Media está utilizando inteligencia artificial para apoyar su preservación y revitalización. Con herramientas como NVIDIA NeMo y GPUs NVIDIA A100, han entrenado modelos de reconocimiento automático de voz que transcriben te reo Māori con alta precisión (>90 %) y combinan transcripción bilingüe (maorí/inglés).
La base de datos se construyó a partir de más de 30 años de grabaciones digitalizadas de hablantes nativos y de una campaña comunitaria en la que miles de personas grabaron frases en maorí para generar datos etiquetados. El proyecto resalta también la participación de la comunidad y la soberanía de datos como principios éticos.
La Primavera Árabe también es tecnológica
El mundo árabe ofrece otro ejemplo revelador, especialmente por su compleja realidad lingüística. El Árabe Moderno Estándar es tan sólo la versión “oficial” usada en medios y en la educación; sin embargo, en el día a día los habitantes de distintas regiones y países hablan con sus propias variantes, diversas entre sí.
En esta necesidad de contribuir a reducir la brecha digital que históricamente ha afectado a esta lengua en el campo de la IA, la Mohamed bin Zayed University of Artificial Intelligence (MBZUAI) –una universidad en Abu Dhabi dedicada exclusivamente a la investigación en inteligencia artificial– ha puesto un fuerte énfasis en desarrollar IA que entienda y procese el idioma árabe.
Un proyecto notable es Jais, el modelo de lenguaje árabe de gran tamaño (LLM) más avanzado del mundo, lanzado en 2023. Este modelo de 13 000 millones de parámetros se entrenó con un conjunto de datos en árabe e inglés, lo que le permitió superar considerablemente a los modelos árabes existentes, además de ser competitivo con modelos en inglés de tamaño similar. Recientemente, MBZUAI y sus colaboradores lanzaron Jais 2, con mejoras orientadas a capturar la riqueza cultural y lingüística del árabe con fidelidad.
Algoritmos que escuchan las primeras lenguas canadienses
En Canadá, el proyecto First Languages AI Reality (FLAIR) es otro ejemplo notable de cómo la inteligencia artificial puede convertirse en una aliada para la revitalización de lenguas indígenas en riesgo.
El objetivo de este proyecto es desarrollar herramientas de procesamiento del lenguaje diseñadas especialmente para idiomas con muy pocos datos digitales disponibles. A diferencia de los grandes modelos entrenados principalmente en inglés y otras lenguas dominantes, este proyecto parte de una pregunta distinta: ¿cómo crear tecnología que funcione para lenguas históricamente excluidas del entorno digital?
Además, FLAIR coloca en el centro la soberanía de datos y la autodeterminación lingüística, reconociendo que el desarrollo tecnológico también implica decisiones sobre el control y uso del conocimiento lingüístico. Esto se refleja en el hecho de que las comunidades mantienen control sobre sus grabaciones, textos y materiales culturales, evitando la extracción indiscriminada de recursos que ha caracterizado a muchos desarrollos en los últimos años.
Un caso desde América Latina
En América Latina, el proyecto Latam-GPT surge como un esfuerzo regional para desarrollar un modelo de lenguaje entrenado con datos producidos en la región. El proyecto intenta fortalecer la capacidad regional para producir infraestructura de IA alineada con sus realidades, desarrollar aplicaciones educativas, gubernamentales y científicas, e incluso sentar las bases para incluir lenguas indígenas en futuros desarrollos.
Impulsado por una alianza de instituciones públicas, universidades y centros de investigación, con Chile como uno de los países articuladores. Latam-GPT busca reducir la dependencia de modelos entrenados principalmente con datos en inglés o desde perspectivas del Norte Global.
Instituciones mexicanas como el Centro de Investigación en Ciencias de Información Geoespacial (CENTROGEO), el Instituto Nacional de Astrofísica, Óptica y Electrónica (INAOE) y el Centro de Investigación e Innovación en Tecnologías de la Información y Comunicación (CTCI) están entre las organizaciones que colaboran con Latam-GPT.
El futuro lingüístico y de la inteligencia artificial
Los ejemplos discutidos aquí muestran que la inteligencia artificial no es únicamente una tecnología desarrollada en unas pocas lenguas dominantes, sino también una herramienta que puede utilizarse para fortalecer la diversidad lingüística del mundo. Desde comunidades indígenas en Nueva Zelanda hasta iniciativas regionales en América Latina, estos proyectos demuestran que es posible desarrollar sistemas capaces de documentar, procesar y difundir lenguas que durante décadas han permanecido al margen del entorno digital.
Más allá de su dimensión técnica, lo que está en juego es entonces la posibilidad de construir una inteligencia artificial que refleje la pluralidad lingüística y cultural de la humanidad. En un mundo cada vez más mediado por sistemas digitales, el futuro de muchas lenguas dependerá también de si logran encontrar un lugar dentro de estas nuevas infraestructuras tecnológicas
Bibliografía
Aguilar Gil, Y. E. (2019). Ää: Manifiestos sobre la diversidad lingüística. Editorial Almadía / Juan Pablos Editor
Barbosa, M. (2025). Falso que el “idioma oficial” de México es el español. Verificado. https://verificado.com.mx/falso-que-idioma-oficial-de-mexico-es-el-espanol/
CENIA (2026) Latam-GPT: la primera IA regional abierta creada con datos latinoamericanos https://cenia.cl/2026/02/10/latam-gpt-la-primera-ia-regional-abierta-creada-con-datos-latinoamericanos
Green, D. W., & Abutalebi, J. (2013). Language control in bilinguals: The adaptive control hypothesis. Journal of Cognitive Psychology, 25(5), 515–530,. https://doi.org/10.1080/20445911.2013.796377
Herce, S. (2024). Yásnaya Aguilar: «No hay nada más político que una lengua porque construye lo común». Ethic. https://ethic.es/2024/01/entrevista-yasnaya-aguilar/
Lee, A. (2024). Māori speech AI model helps preserve and promote New Zealand indigenous language. NVIDIA Blog. https://blogs.nvidia.com/blog/te-hiku-media-maori-speech-ai/
MBZUAI (2024) AI and the Arabic language: Preserving cultural heritage and enabling future discovery. https://mbzuai.ac.ae/news/ai-and-the-arabic-language-preserving-cultural-heritage-and-enabling-future-discovery/
Mila. (2025) First Languages AI Reality. https://mila.quebec/en/ai4humanity/applied-projects/first-languages-ai-reality
Sobre el autor
El maestro Roberto Arturo Morales Cruz es docente de tiempo parcial del departamento de Actuaría, Física y Matemáticas. Es egresado de la licenciatura en Actuaría de la UDLAP, y tiene un Master of Science in Analytics del Georgia Institute of Technology. Sus intereses incluyen el uso responsable de IA y ética en ciencia de datos, así como aplicaciones diversas en gestión de riesgos y fraudes. Actualmente se desempeña como Data Scientist Manager en el sector financiero.
