Estamos donde tú estás. Síguenos en:

Facebook Youtube Twitter Spotify Instagram

Acceso suscriptores

Sábado, 20 de Abril de 2024
Newsletter Peer Review

El quechua y el aymara llegan a Google Translate

Ricardo Martínez

quechua-y-aimara-616x453.png

Presentación del traductor de Google
Presentación del traductor de Google

Los avances de la Inteligencia Artificial en este campo, y una entrevista a Felipe Hasler, profesor de lingüística de la Universidad de Chile, especializado en descripción gramatical de mapudungun y lingüística areal.

Admision UDEC

Este artículo es parte del newsletter exclusivo The Peer Review del pasado miércoles 18 de mayo de 2022, y ahora se comparte para todos los lectores. 

“A finales de un viernes por la noche a principios de noviembre [de 2016], Jun Rekimoto, un distinguido profesor de interacción hombre-computadora en la Universidad de Tokio, estaba en línea preparándose para una conferencia cuando empezó a notar algunos mensajes peculiares rodando en las redes sociales. Al parecer, Google Translate, el popular servicio de traducción automática de la empresa, había mejorado repentinamente y casi infinitamente. Rekimoto visitó Google Translate y comenzó a experimentar con él. Estaba asombrado. Tuvo que ir a dormir, pero Google Translate se negó a relajar su control sobre su imaginación”.

Con estas líneas Gideon Lewis-Kraus, miembro del staff de The New Yorker y habitual colaborador de Harper’s Magazine y de Wired, iniciaba un longread extraordinariamente gatillador del pensamiento para The New York Times, titulado El Gran Despertar de la Inteligencia Artificial (The Great IA Awakening), donde quizá por primera vez para una audiencia masiva se detallaban los avances catastróficos (en el sentido de vertiginosos y radicales) de las tecnologías del Deep Learning -el desarrollo de las redes neurales contemporáneas-, en particular sus progresos sobre el procesamiento del lenguaje natural.

El reportaje extenso de Lewis-Kraus se detenía en que, dado el carácter masivo de datos en lenguaje natural electrónico con que contaba Google y dadas no solo las capacidades de computo amplificadas de los últimos lustros, sino que sobre todo, el desarrollo de nuevas técnicas para la operación de las propias redes neurales profundas, donde cabía y cabe mencionar nombres como los de Geoffrey Hinton o Andrew Ng, el tratamiento de la traducción había alcanzado un Estado del Arte (State of Art, SoA) impensado solo unas cuantas semanas antes de aquel noviembre de 2016.

Más allá del vodka y el asado

Los esfuerzos por llevar a cabo traducciones automáticas entre dos (o más) lenguas ha acompañado a las personas especialistas en el área, así como en campos aledaños como la propia Inteligencia Artificial o las ciencias cognitivas al menos desde los años cincuenta.

En un primer momento se suponía que bastaba con traducir palabra por palabra de una lengua a otra teniendo como base, por ejemplo, diccionarios bilingües. Pero ello rápidamente mostró sus profundas debilidades de las que la mejor ilustración es el caso (apócrifo) del vodka y el asado.

Dicha ilustración sostiene (apócrifamente) que en un ejercicio temprano en los años cincuenta o sesenta se intentó traducir desde el inglés al ruso la bíblica sentencia de, “el espíritu está dispuesto, pero la carne es débil” (Mateo 26:41), que en lengua inglesa corresponde a, “the spirit is willing, but the flesh is weak”. El asunto es que, al volver a traducir del ruso al inglés aquella frase previamente traducida del inglés al ruso, la frase resultante fue: “el vodka está listo, pero la carne está podrida” (“the vodka is ready, but the meat is rotten”) donde se armaba todo un intríngulis con las palabras “spirit” (el “espíritu” / “alma”, contra el “licor espirituoso” / “vodka”) y “flesh” (la “carne” en el sentido de las pasiones humanas, contra la “carne” como un “asado”).

Dicha ilustración sostiene (apócrifamente) que en un ejercicio temprano en los años cincuenta o sesenta se intentó traducir desde el inglés al ruso la bíblica sentencia de, “el espíritu está dispuesto, pero la carne es débil” (Mateo 26:41), que en lengua inglesa corresponde a, “the spirit is willing, but the flesh is weak”. El asunto es que, al volver a traducir del ruso al inglés aquella frase previamente traducida del inglés al ruso, la frase resultante fue: “el vodka está listo, pero la carne está podrida” (“the vodka is ready, but the meat is rotten”)

Cuando fue el día del ascenso de Internet en la primera mitad de la última década del siglo 20, las necesidades de traducción se volvieron de interés general en la población de iniciales cibernautas, máxime cuando mucha de la mejor información disponible en la seminal red estaba escrita en lengua inglesa. Así, millones de personas requerían de servicios de traducción para poder leer en su lengua materna (L1) páginas interesantes sobre sus temas favoritos de esparcimiento o asuntos críticos para su trabajo. Así aparecieron sitios como BabelFish de Altavista, bautizado a partir del nombre de un dispositivo ficcional de la novela La Guía del Autoestopista Galáctico de Douglas Adams.

Sin embargo, los resultados de este tipo de aplicaciones distaban mucho de ser adecuados, estando siempre sus salidas redactadas en una prosa que más parecía el habla de Tarzán.

Justamente por ello es que el hito fundamental de fines de 2016 vía Google cimentó una nueva era para la traducción automática. Y ríos de tinta corrieron sobre dicho avance, deteniéndose en aspectos como BLEU (BiLingual Evaluation Understudy) – “[una métrica] que indica el grado de similitud del texto [traducido] candidato con respecto a los textos de referencia, con valores cercanos a 1, que representa textos más similares” o la IA Zero-Shot –“una IA que traduce sin haber estudiado el idioma antes”.

El ingreso de las lenguas originarias

De acuerdo con el propio blog de Google Translate, a la fecha (mayo de 2022) el sistema puede realizar traducciones entre 133 lenguas diferentes, de las poco más de siete mil que se documenta que se hablan en la actualidad en el mundo.

Señala Google en dicho blog que “durante años, Google Translate ha ayudado a romper las barreras del idioma y conectar comunidades de todo el mundo. Y queremos que esto sea posible para más personas, especialmente aquellas cuyos idiomas no están representados en la mayoría de las tecnologías. Así que hoy hemos agregado 24 idiomas a Translate, que ahora admite un total de 133 que se usan en todo el mundo. Más de 300 millones de personas hablan estos idiomas recién agregados, como el mizo, utilizado por unas 800.000 personas en el extremo noreste de la India, y el lingala, utilizado por más de 45 millones de personas en África Central. Como parte de esta actualización, los idiomas indígenas de las Américas (quechua, guaraní y aymara) y un dialecto inglés (el krio de Sierra Leona) también se agregaron a Translate por primera vez”.

The Peer Review consultó a Felipe Hasler, Profesor de Lingüística de la Universidad de Chile, especializado en descripción gramatical de mapudungun y lingüística areal, sobre las condiciones, el contexto y las implicancias de la iniciativa de Google Translate respecto de las lenguas originarias.

The Peer Review (TPR): De acuerdo con Ethnologue, en América del Sur existen 455 lenguas vivas, la gran mayoría de ellas lenguas de pueblos originarios, que según la investigación en lingüística son habladas por más de quince millones de personas. Las más populosas de aquellas lenguas corresponden, en orden decreciente de número de hablantes, al quechua, el Gguaraní y el aymara, que son justamente tres nuevas lenguas incorporadas en Google Translate. ¿Cuáles son los desafíos que impone la traducción de, no sólo estas tres lenguas, sino que de la amplia diversidad lingüística de nuestro subcontinente?

Felipe Hasler (FH): Creo que una de las principales dificultades viene dada por las diferencias tipológicas entre las lenguas. Creo que el desafío de traducir en forma automática lenguas aglutinantes y polisintéticas es mayor porque se pone en cuestión conceptos básicos de la traducción automática como el concepto de palabra y, con él, otras ideas fundamentales como las recurrencias de combinatorias y los contextos más frecuentes de uso.

"Una lengua polisintética es aquella donde se pueden utilizar una buena cantidad de afijos “pegados” a una raíz y una lengua aglutinante es aquella donde cada uno de estos afijos tiene un solo significado y cada significado puede ser expresado solo a través de un afijo. Así, por ejemplo, una oración como “dicen que Juan va siempre allá a buscar leña” en mapudungun se puede traducir con solo dos “palabras”, “Juan kintu(buscar)-mamüll(leña)-me(movimiento con propósito)-ke(habitualidad)-rke('dicen que')-y(IND.3)".

Una lengua polisintética es aquella donde se pueden utilizar una buena cantidad de afijos “pegados” a una raíz y una lengua aglutinante es aquella donde cada uno de estos afijos tiene un solo significado y cada significado puede ser expresado solo a través de un afijo. Así, por ejemplo, una oración como “dicen que Juan va siempre allá a buscar leña” en mapudungun se puede traducir con solo dos “palabras”, “Juan kintu(buscar)-mamüll(leña)-me(movimiento con propósito)-ke(habitualidad)-rke('dicen que')-y(IND.3).

TPR: Aun cuando algunas de las lenguas mencionadas en la pregunta anterior tienen un status institucional, siendo reconocidas en las constituciones y/o en el régimen estatal de algunos países, como Bolivia respecto del quechua o Paraguay respecto del guaraní, el estado de las cosas respecto de la vitalidad -esto es, su uso como lenguas maternas o lenguas de uso en la vida diaria- de muchas de ellas es de lo que quienes trabajan en esta área llaman 'endangered'. En efecto, Ethnologue señala que existen 120 lenguas en peligro (de desaparecer) y 139 están muriendo. ¿Qué papel cumple la sociedad de la información en este contexto, en particular iniciativas como las de Google Translate?

FH: Creo que bien enfocado puede ser de mucha utilidad y mucho apoyo para los diferentes intentos de revitalización. Contar con elementos virtuales de acceso gratuito y diversificado siempre va a ser importante para estas lenguas. Por ejemplo, existe un grupo llamado Kimeltuwe, que tiene páginas en Facebook e Instagram, que constantemente publican materiales de enseñanza en formato digital y han significado un avance importantísimo en la visibilidad del mapudungun en la esfera pública y un apoyo inestimable para aquellos y aquellas que la están aprendiendo.

También existe, por ejemplo, www.corlexim.cl, que reúne un gran número de diccionarios del mapudungun y los pone en un formato muy accesible lo que permite acercar la lengua a un número cada vez mayor de personas. En ese sentido, quizás Google Translate pueda ser una herramienta imperfecta en un principio pero creo que con el tiempo y con la masificación de su uso puede convertirse, más temprano que tarde, en una herramienta útil si es que las comunidades así lo reconocen.

TPR: Una de las innovaciones que señala el anuncio de Google Translate es que en el caso, tanto de las lenguas sudamericanas, como en el de otras que se incorporan en esta vuelta al sistema, se ha operado con un procedimiento de data diferente al usado en otras fases, cual resultaba lo que se denomina 'datos en paralelo', o sea, textos bilingües alineados que permiten alimentar a los algoritmos o, más precisamente, a las redes neurales profundas (Deep Learning), con que opera el servicio. Ahora los datos no están cargados del mismo modo. ¿Qué nos puede comentar de las empresas intelectuales de traducción de estas lenguas a lo largo de la historia y orientado al contexto actual?

FH: Se puede decir que registros escritos de las lenguas sudamericanas hay desde hace muchísimo tiempo. Así, por ejemplo, la primera gramática del mapudungun data de 1606, entonces su escritura y sus intentos de traducción hacia el español son de larga data. En un primer momento llevados adelante principalmente por sacerdotes pero desde muy temprano también llevados adelante por figuras del mundo mapuche como Pascual Coña o Manuel Manquilef, por nombrar algunos”

Incluso en algunos casos como el de las lenguas huarpes, el millcayac y allentiac hablados en la zona de Mendoza y San Juan Argentina, los registros de los sacerdotes son prácticamente los únicos registros que han quedado de esas lenguas, hoy extintas.

Entonces, claro, en un primer momento los textos de los sacerdotes son textos que obedecen a lógicas de conquista y evangelización pero que hoy en día han quedado también como testimonios históricos de las lenguas que cuentan con ellos y resultan fundamentales para su conocimiento.

“Hay una doble dimensión interesante ahí que quizás se observe también ahora con lo de Google, en tanto empresa externa a las comunidades ¿qué irá a pasar? ¿cómo se irá a recibir? ¿cómo va a incidir en ciertas transformaciones de las lenguas?, son preguntas que quedan abiertas a mi entender”.

En este artículo



Los Más

Ya que estás aquí, te queremos invitar a ser parte de Interferencia. Suscríbete. Gracias a lectores como tú, financiamos un periodismo libre e independiente. Te quedan artículos gratuitos este mes.

En este artículo



Los Más

Comentarios

Comentarios

Añadir nuevo comentario