Europa alberga más de 200 lenguas y un rico legado cultural que abarca miles de años, preservado en millones de activos culturales que narran la historia de sus pueblos. Sin embargo, estas lenguas son más que portadoras de herencia e historia: sustentan tanto la cultura como el comercio, ya que permiten que las personas se conecten, creen y hagan negocios.
No obstante, a medida que el mundo se digitaliza, gran parte de la diversidad lingüística y cultural de Europa corre el riesgo de quedarse atrás.
La mayoría del contenido web online -la fuente principal de datos para el entrenamiento de los actuales Grandes Modelos de Lenguaje (LLM)- está en inglés. Gran parte de este contenido refleja una perspectiva estadounidense. La Comisión Europea ha advertido que la ambición del continente de digitalizar su vasto corpus cultural sigue siendo “significativamente inalcanzable”. Como han reconocido los líderes europeos, sin una acción urgente, este desequilibrio no es solo una cuestión cultural, sino también comercial. Una inteligencia artificial que no comprenda las lenguas, historias y valores de Europa no puede servir plenamente a sus ciudadanos, a sus empresas ni a su futuro.
Por eso, hoy en París, reforzamos nuestro compromiso con el futuro digital de Europa con dos nuevas iniciativas centradas en hacer que lo que es exclusivamente europeo -sus lenguas y su cultura- sea más abierto y accesible. Esta iniciativa se suma a nuestros Compromisos Digitales Europeos, anunciados a principios de este año, para ampliar la infraestructura de IA y cloud, reforzar la resiliencia digital y la protección de la privacidad de los datos, mejorar la ciberseguridad e impulsar la soberanía digital y la economía en Europa.
En primer lugar, asignaremos empleados de dos de nuestros centros de innovación en Estrasburgo (Francia), ciudad que ha sido durante mucho tiempo un cruce de culturas y ahora alberga instituciones europeas clave, a apoyar el desarrollo de LLMs más multilingües en Europa y para Europa. Estos centros contribuirán a ampliar la disponibilidad de datos multilingües para el desarrollo de IA, aprovechando Microsoft Azure, nuestra experiencia técnica y colaboraciones en toda Europa para promover una representación lingüística más inclusiva en los modelos de IA. Como parte de este esfuerzo, también lanzamos una convocatoria de propuestas para contribuir a aumentar la oferta de contenido digital en diez lenguas europeas.
En segundo lugar, con el fin de ayudar a garantizar que la riqueza cultural de Europa esté representada y sea accesible en el ámbito digital, vamos a ampliar la iniciativa Culture AI de Microsoft, que contribuye a salvaguardar lenguas, monumentos y objetos mediante réplicas digitales y la colaboración en datos. Desde 2019, Microsoft ha preservado digitalmente patrimonios como la Antigua Olimpia en Grecia, el Monte Saint-Michel en Francia, la Basílica de San Pedro en Roma y el 80º aniversario de los desembarcos aliados en Normandía, por citar algunos ejemplos. Hoy anunciamos que este otoño, Microsoft comenzará a trabajar con el Ministerio de Cultura de Francia y la empresa francesa Iconem para crear una réplica digital de Notre Dame, la recién restaurada obra maestra gótica de París con 862 años de antigüedad.
Este tipo de apoyo a Europa y su diversidad no es algo nuevo para Microsoft. Estos últimos avances para respaldar las lenguas y la cultura se basan en nuestros más de 40 años de experiencia sirviendo a países y culturas en toda Europa y en el mundo. Desde el principio, aprendimos que empoderar a cada persona del planeta exige que las tecnologías que ofrecemos estén disponibles en los idiomas que habla el mundo. Por eso actualmente Windows soporta más de 90 idiomas, incluyendo todas las lenguas oficiales en la UE, así como el euskera, el catalán, el gallego, el luxemburgués, el valenciano y muchos más. Microsoft 365 también tiene un alcance amplio, proporcionando soporte a través de las aplicaciones de Office en más de 30 lenguas europeas, incluidas todas las lenguas oficiales de la Unión Europea.
La urgencia de cerrar la brecha lingüística
La Unión Europea cuenta con 24 lenguas oficiales, junto con decenas más reconocidas a nivel nacional o regional. Sin embargo, muchas de estas lenguas -incluso algunas de las oficiales, como el danés, finlandés, sueco y griego- representan menos del 0,6 % del contenido web. Otras, como el maltés, irlandés, estonio, letón y esloveno, apenas son visibles en Internet. Aunque solo el 5% de la población mundial tiene el inglés como lengua materna, los textos en inglés constituyen la mitad del contenido en la web, dominando así los datos empleados para entrenar modelos de inteligencia artificial.

Esta infrarrepresentación digital tiene consecuencias reales, ya que los grandes modelos de lenguaje (LLM) dependen en gran medida del contenido web para su entrenamiento. Cuando una lengua carece de suficiente presencia online, corre el riesgo de quedar excluida de los futuros servicios de inteligencia artificial. Aunque los modelos generales y de mayor tamaño pueden manejar múltiples idiomas, aún pueden pasar por alto los matices lingüísticos, el contexto cultural y la profundidad regional necesarios para lograr aplicaciones realmente inclusivas. Los LLM entrenados con datos limitados son menos precisos, presentan más alucinaciones y errores, tienen dificultades con el vocabulario y reflejan un mayor sesgo.[1]
Por ejemplo, Llama 3.1, un popular modelo de código abierto, muestra una brecha de rendimiento de más de 15 puntos porcentuales entre las respuestas en inglés y griego, y una brecha de más de 25 puntos cuando se compara el inglés con el letón. Esto significa que, si este modelo fuera un estudiante de secundaria, estaría en el nivel alto de su clase en inglés, pero en el medio de su clase en griego y en la parte inferior en letón. Y esta disparidad entre idiomas se ve en todas las principales pruebas de LLM de rendimiento.[2]

Figura 2 Rendimiento de GSM8K vs CommonCrawl para lenguas europeas de bajos recursos2
En muchos casos, las lenguas con un profundo patrimonio cultural, como el bretón, el occitano y el romance, que la UNESCO clasifica como en peligro de desaparición, no cuentan con el apoyo de los principales sistemas de IA actuales.
El poder económico del lenguaje
Este desarrollo desigual de los modelos lingüísticos tiene consecuencias económicas reales. Cuando los sistemas de inteligencia artificial no pueden comprender o responder en el idioma de una región, se limita el acceso a servicios y oportunidades, lo que perjudica tanto a las empresas locales como al crecimiento económico en general.
La amplia difusión de la inteligencia artificial -su adopción y uso en las economías- será uno de los principales motores de la innovación y el crecimiento de la productividad durante la próxima década. Al igual que la electricidad y otras tecnologías de propósito general en el pasado, la IA representa la siguiente etapa de la industrialización.
Para las comunidades cuyas lenguas están infrarrepresentadas en Internet, los beneficios de la inteligencia artificial corren el riesgo de quedar fuera de su alcance. Imaginemos, por ejemplo, a un pequeño empresario en Malta que solo habla maltés. Actualmente, las herramientas avanzadas de inteligencia artificial para tareas como el análisis de mercado o la generación de contenidos probablemente no funcionen en maltés, lo que limita las posibilidades de este emprendedor para aprovechar la IA. O pensemos en un estudiante polaco que vive en una localidad a las afueras de Varsovia y que no puede encontrar recursos educativos basados en IA en su idioma, lo que podría afectar sus oportunidades de aprendizaje. Incluso cuando una plataforma de IA admite nominalmente un idioma, la experiencia puede ser deficiente.
Los gobiernos e instituciones europeas han reconocido la importancia de abordar esta situación. Para impulsar la competitividad económica en la era de la inteligencia artificial, Europa deberá eliminar las barreras lingüísticas y fomentar la difusión de la IA en todo el continente. Según la Comisión Europea, solo el 13,5% de las empresas de la UE utiliza inteligencia artificial. El Plan de Acción de la UE para el Continente de la IA señala que eliminar las barreras lingüísticas en el mercado único podría aumentar el comercio intraeuropeo hasta en 360.000 millones de euros.
Nuevas medidas para abordar las brechas lingüísticas
Para contribuir a cerrar esta brecha lingüística, Microsoft colaborará con socios europeos para incrementar la disponibilidad de datos multilingües. En colaboración con el Laboratorio ICube de la Universidad de Estrasburgo-una institución dedicada a la ingeniería, la informática y la imagen- apoyaremos los esfuerzos de formación en inteligencia artificial, asignando personal del Microsoft Open Innovation Center (MOIC) y del AI for Good Lab en Estrasburgo, Francia. Este equipo contará con el respaldo de una red interna global compuesta por más de 70 ingenieros, científicos de datos y profesionales de políticas de Microsoft. Esta colaboración entre el MOIC, el Microsoft AI for Good Lab y la Universidad de Estrasburgo también financiará a dos investigadores postdoctorales y proporcionará hasta un millón de dólares estadounidenses en créditos de Azure.
Este equipo comenzará aprovechando el propio almacén de datos multilingües de Microsoft, haciéndolo accesible y transparente para el público europeo, incluidos los desarrolladores de código abierto. Esto incluye, por ejemplo, datos de texto multilingües de GitHub y conjuntos de datos de voz. El MOIC y GitHub colaborarán con Hugging Face, una popular plataforma de colaboración para el desarrollo de modelos de inteligencia artificial, para alojar los datos y hacerlos ampliamente accesibles. Esto se basa en nuestra relación existente con Hugging Face para poner a disposición una amplia gama de modelos abiertos en el catálogo de modelos de Hugging Face para su despliegue con un solo clic en el Catálogo de Modelos de Azure. Esto incluye el lanzamiento, la semana pasada, de las últimas contribuciones hacia la IA multilingüe: el SmoILM3, un modelo multilingüe altamente eficiente de 3.000 millones de parámetros con soporte para seis idiomas: inglés, francés, español, alemán, italiano y portugués.
El MOIC también colaborará con Common Crawl, uno de los mayores repositorios gratuitos y abiertos de datos rastreados de la web. El MOIC financiará trabajos en Common Crawl, aprovechando hablantes nativos para anotar y enriquecer los datos de lenguas europeas en el conjunto de datos de Common Crawl disponible públicamente.
Además, el MOIC y el AI for Good Lab lanzarán una convocatoria de propuestas para contribuir a ampliar la oferta de contenido digital en diez lenguas europeas, poniendo sus colecciones de textos a disposición de forma responsable y ética para el desarrollo y las experiencias de IA multilingüe, respetando siempre los términos de cada comunidad lingüística. Las solicitudes para optar a las ayudas estarán disponibles en la página web de AI for Good Lab a partir del 1 de septiembre de 2025. A la hora de seleccionar a los beneficiarios, el MOIC y el AI for Good Lab se centrarán en las oportunidades para desbloquear datos en idiomas con una representación relativamente baja en contenidos online, como el estonio, el alsaciano, el eslovaco, el griego y el maltés. Las ayudas proporcionarán a los beneficiarios créditos de Azure y soporte técnico y de ingeniería.
Si bien disponer de más datos multilingües es esencial, también pueden contribuir mejores herramientas tecnológicas y conocimientos especializados. Por ejemplo, muchos idiomas emplean sistemas de escritura que, actualmente, plantean desafíos para los modelos originalmente diseñados para el alfabeto latino. Los caracteres cirílicos, el alfabeto griego y la escritura cursiva del árabe presentan propiedades distintas. Los «tokenizadores» estándar suelen segmentar estos sistemas de escritura de manera subóptima, lo que puede perjudicar la capacidad del modelo para aprender el contexto a largo plazo o la ortografía precisa en esos idiomas. Los avances en técnicas que permitan a un modelo gestionar cualquier sistema de escritura de manera uniforme pueden ser de gran ayuda. También resultan útiles mejores mecanismos para crear datos sintéticos y para procesar y curar esos datos de forma más eficaz, especialmente cuando se gestionan adecuadamente las cuestiones de privacidad y datos sensibles.
El MOIC y el AI for Good Lab trabajarán para facilitar el desarrollo y la difusión de conocimientos, herramientas y capacidades que permitan abordar estos retos y empoderar a los desarrolladores europeos. El AI for Good Lab publicará una guía detallada sobre cómo crear conjuntos de datos lingüísticos de alta calidad y entrenar modelos lingüísticos locales para aprovechar al máximo los datos existentes. Ambos grupos también apoyarán la investigación pertinente, organizarán encuentros, cofinanciarán proyectos data commons y garantizarán que los conocimientos, herramientas y capacidades estén disponibles allí donde más se necesiten. Estos equipos también continuarán respaldando iniciativas como las del Barcelona Supercomputing Center, Basque Center for Language Technology y la Universidad de Santiago de Compostela para publicar modelos de IA entrenados en español, catalán, euskera y gallego en Azure AI Foundry. Esta iniciativa permite a los desarrolladores crear sistemas de inteligencia artificial que funcionen en las lenguas oficiales de España, fomentando así la innovación y la inclusión.
Por último, para promover la investigación responsable en inteligencia artificial y contribuir a cerrar la brecha lingüística, Microsoft está lanzando dos nuevas colaboraciones académicas en Europa: en la Universidad de Estrasburgo y en la IE University School of Science & Technology en España. El AI for Good Lab de Microsoft y el MOIC colaborarán con la Universidad de Estrasburgo para proporcionar subvenciones de Azure que apoyen la investigación conjunta en inteligencia artificial. En la IE University School of Science & Technology, el AI for Good Lab de Microsoft otorgará subvenciones de Azure para apoyar investigaciones conjuntas centradas en lenguas con pocos recursos, incluyendo el respaldo a proyectos de fin de grado relacionados, con el objetivo de acelerar nuevas soluciones centradas en el lenguaje y la inteligencia artificial.
Nuevas medidas para ayudar a salvaguardar digitalmente el legado cultural de Europa
Desde 2019, la iniciativa Culture AI de Microsoft se ha centrado en utilizar la inteligencia artificial en todo el mundo para ayudar a preservar los idiomas, lugares, historias, monumentos y objetos que definen la historia de la humanidad. Impulsada por el AI for Good Lab y a través de colaboraciones con organizaciones sin ánimo de lucro, universidades, gobiernos e instituciones culturales, la iniciativa apoya proyectos que digitalizan y protegen el patrimonio cultural -desde lenguas en peligro de extinción hasta monumentos emblemáticos, incluidos algunos en Francia, Roma y Grecia-. Ya sea creando réplicas digitales de sitios históricos o facilitando el acceso a las colecciones de los museos, el objetivo es garantizar que la identidad y la diversidad cultural no solo se conserven, sino que también sean más inclusivas y accesibles en la era digital.
Hoy anunciamos nuestro próximo proyecto, que consiste en la creación de una réplica digital en colaboración con el Ministerio de Cultura francés y la empresa francesa Iconem. El proyecto tiene como objetivo crear un gemelo digital de Notre Dame de París, un referente arquitectónico y cultural moldeado a lo largo de los siglos. La construcción de Notre Dame comenzó en 1163 y se prolongó durante casi 200 años, dando lugar a una obra maestra gótica de 128 metros de longitud, con dos torres gemelas que se elevan 69 metros sobre el Sena. Tras un devastador incendio en 2019, Notre Dame reabrió sus puertas al público a finales de 2024. El proyecto empleará la tecnología y los métodos desarrollados con Iconem para crear un gemelo digital de la Basílica de San Pedro el año pasado, basado en más de 400.000 fotografías y avanzados algoritmos de inteligencia artificial, en colaboración con el Vaticano.
Al igual que el proyecto del año pasado documentó para el Vaticano cada detalle de la Basílica de San Pedro, este nuevo proyecto creará una réplica digital que preservará de forma permanente y en formato digital cada detalle de Notre Dame, garantizando que su estructura, historia y simbolismo queden protegidos y sean accesibles para las generaciones futuras. Combinando técnicas avanzadas de captura de imágenes con inteligencia artificial, crearemos y donaremos al Estado francés un gemelo digital que podrá ser utilizado por conservadores y exhibido en el futuro Musée Notre Dame de Paris.
Además del proyecto en Notre Dame, hoy anunciamos también una colaboración con la Bibliothèque Nationale de France, junto a Iconem, para digitalizar cerca de 1.500 maquetas escenográficas de representaciones en la Ópera Nacional de París entre los años 1800 y 1914. Las maquetas digitalizadas estarán disponibles a través de experiencias y exposiciones interactivas y educativas, así como en forma de conjunto de datos accesible en la plataforma Gallica de la Bibliothèque Nationale de France para proyectos de investigación y de inteligencia artificial aplicada a la cultura.
Por último, estamos emprendiendo una nueva colaboración con el Musée des Arts Décoratifs para poner a disposición pública las descripciones digitales detalladas de aproximadamente 1,5 millones de objetos, desde la Edad Media hasta la actualidad. Este paso permitirá a investigadores en historia, historia del arte y conservación acceder a esta nueva información para su estudio y aplicación en sus propias investigaciones impulsadas por inteligencia artificial.
De cara al futuro: Adoptar un enfoque basado en principios
Adoptamos hoy estas nuevas medidas con humildad y respeto, reconociendo que la preservación de la diversidad lingüística y cultural de Europa es una tarea que corresponde a los europeos y debe ser liderada por ellos. La Unión Europea ya ha puesto en marcha un esfuerzo multinacional para reunir datos lingüísticos de la UE y digitalizar todo tipo de patrimonio cultural. Nuestro papel es contribuir a estas iniciativas y apoyarlas, así como a otras similares. Nada de lo que anunciamos hoy generará datos ni tecnología propietaria para Microsoft.
En última instancia, la mejor manera de capacitar a más personas en toda Europa para abordar estas necesidades es dotarlas de las habilidades en inteligencia artificial que les permitan tener éxito en estos ámbitos. Tal y como ha concluido recientemente la Comisión Europea, el déficit de competencias digitales en el sector cultural está dificultando los esfuerzos por digitalizar las obras del patrimonio cultural en toda Europa. Con el fin de ayudar a cerrar esta brecha de competencias, el MOIC y el AI for Good Lab compartirán sus conocimientos y aprendizajes sobre cómo llevar a cabo este trabajo fundamental.
La tecnología debe reflejar la riqueza de la humanidad, no despojarla de ella. Si tomamos medidas intencionadas desde ahora, podemos contribuir a garantizar que la inteligencia artificial no borre la diversidad lingüística y cultural, sino que la fortalezca.
Este es uno de los retos de equidad más significativos de la era de la inteligencia artificial. Y si trabajamos juntos, con determinación y sentido de urgencia. podremos cerrar la brecha y construir un futuro digital que respete cada idioma, cada cultura y cada comunidad de Europa.
###
[1] P. Rohera, C. Ginimav, G. Sawant, and R. Joshi, “Better To Ask in English? Evaluating Factual Accuracy of Multilingual LLMs in English and Low-Resource Languages,” Apr. 28, 2025, arXiv: arXiv:2504.20022. doi: 10.48550/arXiv.2504.20022.
[2] K. Thellmann y cols., «Hacia una evaluación multilingüe de LLM para lenguas europeas», 17 de octubre de 2024, arXiv: arXiv:2410.08928. doi: 10.48550/arXiv.2410.08928.