Estamos donde tú estás. Síguenos en:

Facebook Youtube Twitter Spotify Instagram

Acceso suscriptores

Miércoles, 27 de Octubre de 2021
Columna Académica

¿Por qué Twitter etiquetó al candidato Cristián Cuevas como futbolista?

Ricardo Martínez

La Lista del Pueblo ha elegido a Cristián Cuevas como su candidato presidencial. Su nombre se vuelve tendencia en Twitter. El algoritmo de Twitter determina que ese nombre es el del futbolista asociado alguna vez al Chelsea y actual jugador de Huachipato. Acá algunas reflexiones sobre este error de clasificación desde las interdisciplinas lingüísticas.

Uno de los problemas más peliagudos de los análisis lingüísticos que realiza la mente o el cerebro o los computadores es al que se denomina como "Word Sense Disambiguation" (“desambiguación del sentido de una palabra”), que corresponde a determinar que sentido tiene una palabra en un texto específico. Por ejemplo, si se lee, "el anciano se sentó en el banco", hay al menos dos sentidos posibles para "banco": 1) el banco de una plaza -por ejemplo-, 2) el edificio de una institución financiera. La Psicolingüística (la interdisciplina que combina la Psicología Cognitiva con la Lingüística) desde hace décadas ha encontrado que las mentes humanas suelen "activar" ambos sentidos a la vez -esto es, que al leer, ambos significados, asiento e institución, quedan disponibles para ser usados posteriormente en la comprensión del texto- y sólo resuelve el problema cuando se recibe más información, como una frase que se lea a continuación que diga, “a esperar el cheque de su jubilación”, caso en el cual el sentido de “banco” como institución financiera termina predominando, mientras que el sentido de “asiento” se desactiva.

En el caso de la Neurolingüística (la interdisciplina que combina la Neurociencia Cognitiva con la Lingüística), por ejemplo, un estudio como el de Huth et als muestra que un mismo significante (esto es, el sonido o la forma escrita de una palabra), como el propio “banco”, puede activar más de una región neural -como las que se localizan vía fMRI (Imagen de Resonancia Magnética Funcional, un procedimiento para observar la actividad cerebral)-, esto es, un mismo sonido o grafía se relaciona con más de un significado (la definición mental de una palabra).

Para la Lingüística Computacional (la interdisciplina que combina la Inteligencia Artificial con la Lingüística) el Word Sense Disambiguation es todo un tete, al punto que procedimientos léxico-semánticos del pasado, como los métodos Bag-of-Words (que consiste en disponer de palabras etiquetadas en categorías, como sustantivos relacionados con “medios de transporte” -auto, tren- o “muebles” -silla, mesa-, por ejemplo) o Word2vec (que consiste en disponer las palabras en espacios de múltiples dimensiones con valores numéricos asociados y en el que las palabras que resultan similares, como “alegría” y “felicidad”, tienen una menor distancia numérica en aquel espacio que palabras que no están relacionadas semánticamente, como “cielo” y “botella”, por ejemplo) no lograban resolver el problema.

Tuvieron que llegar procedimientos de Deep Learning denominados "Transformers" como ELMo (sigla para Embeddings from Language Model, que se puede traducir como “embebimentos desde un modelo de lenguaje”) para avanzar en esta línea.

ELMo mantiene más de una representación vectorial (como las que usaba Word2vec) para cada significante, como “banco”. Y atiende al co-texto (otras palabras u oraciones en el mismo texto) para desambiguar, en un proceso similar al del ejemplo en Psicolingüística, cuando aparece el segmento, “a esperar el cheque de su jubilación”.

El Caso Twitter

Una de las aplicaciones más importantes que ofrece Twitter a quienes lo utilizan es el listado de temas candentes o Trending Topics (TT).

Determinar cuáles son esos Trending Topics no es un procedimiento sencillo. Se podría pensar, por ejemplo, que basta con que el servidor central de Twitter dispusiera de un mecanismo para contar palabras y simplemente ubicara las palabras más usadas por quienes tuitean en los primeros lugares. Pero eso haría, por ejemplo, en castellano, que siempre estuvieran en los primeros lugares como TT palabras extraordinariamente frecuentes, como “de”, “la” o “un”.

Es por ello que al parecer lo que hace Twitter es comparar cada, por ejemplo, cinco minutos, las palabras que se están usando con las palabras que se estaban usando cinco minutos antes. Un procedimiento para hacer esa comparación y detectar tendencias es el algoritmo conocido en Lingüística Computacional como Método Damerau.

Sin embargo, el listado de TT de Twitter no se detiene en cuáles son las palabras (o grupos de palabras, a lo que se denomina como “unidades pluriverbales”) en tendencia, sino que, además, ofrece una etiqueta para los TT. Por ejemplo, si el tema corresponde al ámbito de la política o de la televisión.

Esto no sólo con palabras de diccionario -como “banco”-, sino que también sobre nombres propios en un problema llamado “Named Entity Recognition” (“reconocimiento de entidades nombradas”), como por ejemplo determinar que una unidad pluriverbal como “Michelle Bachelet” es el nombre de una persona, o que “Los Ángeles” es el nombre de un lugar.

Sí, pero, ¿Los Ángeles, Chile, o Los Ángeles, California?

En el Named Entity Recognition vuelve a aparecer el problema de la desambiguación. Porque existen los alcances de nombres. En gran parte de la literatura sobre estos temas, se cita el ejemplo de “Michael Jordan”. Resulta que la “entidad Michael Jordan” es muy probable que se etiquete como el nombre de la exestrella de la NBA. Pero también hay un Michael Jordan que es un profesor de la Universidad de Berkeley.

Este problema es realmente importante para, por ejemplo, los procedimientos de clasificación automática y masiva de datos.

Por ejemplo, las bases de datos bibliográficas, como Web of Science o Scopus, que deben procesar centenares de miles de registros de artículos académicos (papers) al año, asignan cada paper a su o sus autores. Pero también hay alcances de nombres. Por ejemplo, en Google Scholar se registran 106 “Pedro Rodríguez”. ¿Cómo distinguen estas bases de datos cuál Pedro Rodríguez es cuál Pedro Rodríguez?

Si aquellas bases de datos, y, finalmente, el propio Twitter tuvieran sistemas de clasificación tipo “Transformers” del estilo de ELMo -que probablemente los tienen- podría ser más precisa la clasificación temática de sus Trending Topics.

Pero en el caso de Cristián Cuevas simplemente esto no funcionó.

Ya que estás aquí, te queremos invitar a ser parte de Interferencia. Suscríbete. Gracias a lectores como tú, financiamos un periodismo libre e independiente. Te quedan artículos gratuitos este mes.

Comentarios

Comentarios

Ricardo Realmente me parece maravilloso como de un error del algoritmo de una aplicación nos has dado una clase increíble de lingüística a personas que no conocemos esa área del conocimiento y nos ha permitido asomarnos al mundo de la comprensión y significado de las palabras. Realmente gocé tu artículo. Gracias

Añadir nuevo comentario