'Craqueando' los mensajes del pasado con 'machine learning'

Estamos donde tú estás. Síguenos en:

Youtube Spotify

Acceso suscriptores

Domingo, 8 de Marzo de 2026

Arqueolingüistica

'Craqueando' los mensajes del pasado con 'machine learning'

Ricardo Martínez

08/07/2019 - 04:25

escritura-maya.jpg

Descifrar una lengua escrita del pasado es una de las tareas mancomunadas más fascinantes y misteriosas en las que se embarcan especialistas de la lingüística, la arqueología o la antropología. Ello ha llevado a hitos como el craqueo (o desciframiento) de los jeroglíficos egipcios, el Lineal B micénico o el código maya. Ahora, con técnicas de machine learning, la tarea parece acelerar sus resultados.

En uno de sus relatos más renombrados y recordados, El escarabajo de oro, Edgar Allan Poe presenta un pergamino que contiene un criptograma, un texto escrito en clave, que su personaje, William Legrand, logra descifrar basándose en la idea de que cada signo del pergamino que contiene el código corresponde a una letra del alfabeto latino y que este codifica una señal en inglés.

Para acometer la tarea, Legrand propone basarse en un hallazgo antiguo, pero que ha resultado muy fructífero hasta el día de hoy: que la frecuencia de cada letra escrita en un idioma particular es diferente, habiendo algunas que ocurren muchas veces -como la “e” en la lengua anglosajona- y otras que resultan sumamente infrecuentes -como la “z” o la “q” en el mismo idioma escrito-.

Mediante dicho mecanismo el personaje del cuento logra descifrar, luego de otra serie de ingeniosos procedimientos, el texto y descubrir el tesoro cuya clave para hallarlo se encuentra en él mismo. Pero no solo eso. El texto de Poe se ha vuelto uno de los recursos básicos para la criptografía, la disciplina que pretende traducir textos presentados en sistemas de escritura misteriosos.

La piedra de Rosetta, los Lineal A y B y el código maya

La historia del desciframiento de inscripciones de las civilizaciones del pasado está repleta de hitos en que personas provenientes de disciplinas como la lingüística, la arqueología, o la antropología han colaborado para dar con ciertos principios operativos que pueden ayudar a la empresa. Obviamente el caso más famoso en la historia es el que dice relación con las inscripciones impresas en la piedra de Rosetta, una estela egipcia descubierta en 1799 y que fue descifrada por Jean-François Champollion en París en 1822, la que hoy se encuentra en el Museo Británico de Londres.

El joven Champollion se dio cuenta de que la estela disponía en tres ocasiones del mismo texto. En el primer segmento se hallaban jeroglíficos egipcios, los que no eran interpretables hasta ese momento. En el segmento intermedio, se presentaba el mismo relato, pero esta vez escrito en demótico. Y en el segmento inferior, se presentaba por tercera vez el texto, solo que en griego antiguo.

Con esa pista como clave y basándose en especial en la presencia de nombres propios resaltados en las tres inscripciones, Jean-François craqueó (descifró) el código egipcio haciendo un paralelo entre los caracteres fonéticos entre las tres lenguas expresadas en la legendaria piedra.

Los sistemas de escritura no son productos naturales, como el lenguaje hablado, sino que artefactos culturales que han surgido en la historia reciente de la humanidad en muchas ocasiones y a lo largo del planeta. Muchos de ellos han podido ser interpretados porque las tradiciones de lectura de dichos signos han pervivido. Sin embargo, hay por todas partes de la Tierra inscripciones en piedra o madera que se resisten a ser descifrados.

Uno de los casos más notorios de esto es un sistema encontrado en Creta en 1886 por el arqueólogo Arthur Evans, conocido como Lineal A. Este sistema fue hallado simultáneamente con otro, al que se denominó Lineal B, y que logró ser descifrado por el arquitecto inglés Michael Ventris en 1952, fundamentalmente debido a tres condiciones: el recabamiento de mucho material sobre el sistema (cerca de treinta mil signos), el recurso de sistematizar el chequeo de las frecuencias de dichos signos -por medio de una técnica conocida como cuadrícula silábica-, y, finalmente, porque se propuso que los escritos en Lineal B correspondían a la lengua micénica, un antepasado del griego, y esta última lengua se hallaba fuertemente documentada desde tiempos remotos en sus características lingüísticas.

El Lineal A, hasta el día de hoy no ha podido ser descifrado.

Otro caso similar, y quizá el más notable, corresponde al código maya. Este fue encontrado tan temprano como los invasores españoles hicieron pie en la península del Yucatán a inicios del siglo XVI. Los españoles, y en especial un fraile fanático llamado Diego de Landa, hicieron todo lo humanamente posible por destruir este sistema, al que atribuían al demonio, y centenares o miles de textos escritos en el mismo fueron quemados en uno de los genocidios culturales más nefastos de los que se tengan registro.

Pero las inscripciones mayas sobrevivieron en las antiguas edificaciones pétreas cubiertas a menudo por la selva y descubiertas luego a lo largo de los siglos siguientes. Muchas historiadoras y muchos lingüistas desde el siglo XIX hasta el XXI se abocaron a la tarea de dar con la clave de lectura, como presenta un documental de la serie Nova de la PBS (Public Broadcasting Service, la cadena de televisión pública en Estados Unidos) de 2008, Cracking the Maya Code.

La tarea de craquear el código maya resulta incluso más compleja que la de Rosetta o del Lineal B, en particular porque no se disponía ni de un texto en paralelo, como en el primer caso, ni de una lengua tan atestiguada como el griego antiguo, como en el segundo.

Sin embargo, especialistas como Eric Thompson -quien organizó en una grilla los distintos signos que aparecían en las inscripciones, en los llamados Números de Thompson; su colaboradora, Tatiana Proskouriakoff, quien demostró la existencia de linajes reales entre los mayas a partir de las inscripciones; el soviético Yuri Knórosov, quien se dio cuenta de que en esta escritura se combinaban logogramas, esto es representaciones de la palabra completa, como signos silábicos, en que se representaba la unión de una consonante con una vocal; y, finalmente, David Stuart, quien dio con el paso crucial, al constatar que muchas veces un mismo sonido se representaba por más de un glifo, consiguieron finalmente en un esfuerzo mancomunado de décadas, dar con la interpretación de estos signos.

El arribo del machine learning

Aunque el propio Yuri Knórosov sostenía que “no hay escrituras indescifrables, cualquier sistema de escritura producida por el hombre puede ser leído por el hombre” -según se puede leer del libro El ruso que descifró el código maya- también es cierto lo que indicaba Maurice Pope en The Story of Decipherment: From Egyptian Hieroglyphic to Linear B de la editorial Thames & Hudson: que cada desciframiento resulta una tarea única en su tipo.

Es por ello que la publicación reciente en arXiv, y recogida por MIT Technology Review, de una rutina llevada a cabo por los investigadores Jiaming Luo, Yuan Cao y Regina Barzilay, del MIT y de Google, avanza un paso gigantesco en el campo.

Estos especialistas lograron de manera automática descifrar tanto el Lineal B como el Ugarítico, dos sistemas ya descifrados por manos humanas anteriormente, pero esta vez a un bajo costo de textos en paralelo o de recabamiento de grillas.

Para hacerlo utilizaron un sistema conocido como LSTM (long short-term memory: memoria de corto plazo), una arquitectura de aprendizaje profundo, o deep learning, que logró “traducir correctamente el 67,3% de los cognados [formas similares y evolucionadas de palabras antiguas en versiones modernas] del Lineal B en sus equivalentes griegos en el escenario de desciframiento”.

Los autores defienden que “por lo que sabemos, nuestro experimento es el primer intento de descifrar el Lineal B automáticamente”.

Los sistemas digitales de aprendizaje automático -o machine learning- disponen de la capacidad de reconocer patrones recurrentes en los sistemas de escritura que serían sencillamente imposibles para el trabajo manual humano, y pueden bypasear algunos de los problemas de procesamiento que la tarea conlleva, de modo de facilitar la exploración de estos sistemas de manera mucho más meticulosa y pormenorizada de lo que se ha hecho hasta la fecha.

Es de esperar, por ello, que, en los siguientes meses o años, con rutinas de esta naturaleza se logre atacar de manera definitiva a todos esos sistemas de escritura aún no descifrados, como el Lineal A o el mismo Rongo Rongo, el sistema de inscripciones de Rapa Nui.