Estamos donde tú estás. Síguenos en:

Facebook Youtube Twitter Spotify Instagram

Acceso suscriptores

Jueves, 14 de noviembre de 2019
Sesgos modernos

Por qué la Inteligencia Artificial es racista y sexista

Ricardo Martínez

La semana pasada el MIT reveló que Google funciona pésimo si se trata de identificar lenguaje de odio, cuando hablan afroescendientes estadounidenses. Un sesgo más de un sistema que reproduce los contextos culturales en los que se construye.

Fue una noticia tecnológica de la presente semana. MIT Technology Review señalaba que el algoritmo de Google para detectar lenguaje del odio (hate speech) tendía a castigar tuiteos escritos por afroamericanos, clasificando un 46% de mensajes no ofensivos como lenguaje del odio, aunque no lo fueran.

¿Cómo sucedía?

Los algoritmos que están enfocados a clasificar mensajes de texto suelen operar con palabras clave, a las que se les incluye en listados conocidos como bolsas de palabras (bags of words). Una de esas palabras es, por ejemplo, la llamada N word, a saber nigger; que podría traducirse al español como negro, pero que en el inglés de Estados Unidos tiene fuertes connotaciones raciales o racistas, según quien la diga.

De hecho, lo que no detectaba el algoritmo, sin embargo, es que la N word pronunciada por un afroamericano tiene un sentido completamente diferente al que tendría si la pronuncia una persona que no pertenece a dicho grupo.

Entonces el procedimiento tendía a etiquetar como ofensivo un mensaje que no lo era para nada.

Más allá de este caso en particular, los sesgos en los que caen los sistemas de aprendizaje automático y los sistemas de clasificación han empezado a ser revisados con lupa, porque en no pocas ocasiones se producen errores como el presentado.

Sesgando desde el principio

De acuerdo con el profesor Ian Witten de la Universidad de Waikato en Nueva Zelanda y parte del equipo creador de Weka, un software que permite con facilidad aplicar procedimientos de machine learning sobre datos ordenados, pero no analizados, la mayoría de las rutinas que trabajan para resolver misterios y encontrar sorpresas sobre el big data, se organizan en torno a dos objetivos: las tareas de clasificación, y las tareas de regresión.

En el primer caso, el de las tareas de clasificación, frente a cierto evento o caso en el mundo, el sistema debe asignarle una categoría. Por ejemplo, si una persona que aparece en una foto es hombre o mujer, o si cierto sonido corresponde al producido por una guitarra eléctrica o a un bajo, o si un mensaje en Twitter es positivo o negativo.

Clasificar correctamente un evento o caso permite muchas operaciones posteriores, como extraer estadísticas, detectar tendencias u operar con filtros: por ejemplo, para determinar qué mensajes de odio deben ser eliminados de las redes sociales.

Pero nada es tan simple.

Para que las rutinas de clasificación puedan operar es necesario, en primer lugar, contar con una colección de casos previamente levantados. Si lo que se quiere es clasificar el sexo de ciertos rostros, se debe disponer de imágenes de rostros, ojalá ya etiquetadas manualmente (aprendizaje supervisado) que alimenten a los algoritmos para que encuentren las fórmulas para clasificar.

Y la cantidad de datos que se requiere es tanta, que a esas bases de datos se les ha empezado a llamar big data. Por ejemplo, el autor de este reportaje para su tesis doctoral debía hacer clasificaciones de tuiteos en términos de polaridad (o análisis de sentimientos): ¿es este tuiteo positivo (te amo), negativo (te odio) o neutro (estoy desayunando)? Para ello contaba con dos bases de datos de tuiteos en español etiquetados manualmente (el TASS corpus). La primera tenía solo mil tuiteos etiquetados. La segunda tenía 67 mil. Los resultados de la rutina sobre la primera base fueron mediocres. En cambio, los resultados sobre la segunda base, mucho más amplia, fueron mucho más exitosos.

Como decía hace veinte años Curt Burguess de la Universidad de California en Riverside, “el tamaño sí importa”.

Como ya se ha señalado en un reportaje previo de INTERFERENCIA, ha emergido, sobre todo en la presente década, un lucrativo negocio para levantar datos masivos en todo ámbito de cosas: la aparcería digital. Pero estos datos que generan los nuevos jornaleros digitales suelen venir sesgados desde el principio. Ello, porque, como indica Meredith Broussard en Artificial Unintelligence, libro publicado por MIT Press, los datos son extraídos por seres humanos o por máquinas parametrizadas por seres humanos y habitualmente se encuentran previamente sesgados por los estereotipos humanos.

Vehículos militares matutinos y mujeres en la cocina

La historia que se reproduce a continuación y que relata Holger K. von Jouanne-Diedrich de la Technical University Aschaffenburg en 2017 puede que no sea cierta, pero contiene una lección importante en términos de los sesgos para los algoritmos:

“Hace algún tiempo ciertos expertos militares construyeron un sistema cuyo objetivo era distinguir vehículos militares de vehículos civiles. Escogieron un enfoque de red neural y entrenaron el sistema con imágenes de tanques, tanquetas y lanzadores de misiles, por un lado, y autos normales, camionetas y camiones, por el otro. Luego de llegar a resultados razonables, llevaron el sistema al exterior... y este falló por completo, con resultados nada mejores que lanzar una moneda al aire. Sabido esto, los expertos rediseñaron la caja negra (una hazaña no pequeña en sí misma) y descubrieron que las fotos militares que utilizaron para el entrenamiento se habían tomado al anochecer o al amanecer, mientras que la mayoría de las fotos civiles se tomaron bajo condiciones climáticas más luminosas. El sistema había aprendido la diferencia entre la luz y la oscuridad”.

Por supuesto que el error que comete la red neural del ejemplo militar-civil puede llevar a tomar decisiones erróneas nefastas. Sin embargo, las fallas de los algoritmos tienen una vertiente más peligrosa valóricamente, cuando se trata de tareas de clasificación que involucran sexismo, racismo o clasismo.

El diario El País de España documenta estos últimos casos en un reportaje de septiembre de 2017: “Un hombre calvo, de unos sesenta años, mueve con sus espátulas de madera unos trozos de carne dentro de una sartén. Lleva gafas de pasta, vaqueros y está frente a los fogones de su pequeña cocina, decorada en tonos claros. Al ver esta imagen, la inteligencia artificial lo tiene claro y gracias a su sofisticado aprendizaje etiqueta lo que ve: cocina, espátula, fogones, mujer. Si está en una cocina, entre fogones, debe ser una mujer”.

Ello fue el hallazgo de un equipo de la Universidad de Virginia liderado por Jieyu Zhao, quienes se dieron cuenta de que, en las tareas de clasificación de sexo por imágenes, las mujeres solían encontrarse en un entorno de cocina, mientras que los hombres no. 

¿Por qué?

Porque el corpus o data de entrenamiento para las rutinas del aprendizaje de máquina ya venían segados de esa manera.

¡No le crea!

Cuando una persona realiza una búsqueda en Google, cuando Facebook recomienda etiquetar a alguien que supone reconocer en una foto que se acaba de subir, cuando los sistemas de video de la autopista urbana intentan descifrar el guarismo de una patente de un auto que viaja sin TAG; en todas estas tareas de clasificación, los resultados descansan sobremanera en los datos previamente cargados al sistema.

Y si estos datos cargados ya vienen con sesgos culturales, los resultados estarán sesgados. Como señala el mismo artículo de El País: “a estas alturas, los ejemplos de algoritmos que exacerban prejuicios o discriminaciones son innumerables y ponen en entredicho la gran promesa de estos sistemas: retirar de la ecuación el error humano. Los algoritmos nos condenan a repetir el pasado del que queríamos escapar al replicar los prejuicios que nos definían”.

Toda un área de estudios actuales intenta acometer una solución a los sesgos de las máquinas, en primer lugar, volviendo a las revisiones cualitativas y de detalle humanas con un intento de desprejuiciación, como hace ver Martin Lindstrom en su libro Small DATA. Y, en segundo término, volviendo sobre los datos originales para observar qué tipo de sesgos dependientes de la cultura se pudieron haber filtrado cuando se aparcearon los datos.

Los Más

Ya que estás aquí, te queremos invitar a ser parte de Interferencia. Suscríbete. Gracias a lectores como tú, financiamos un periodismo libre e independiente. Te quedan artículos gratuitos este mes.

Los Más

Comentarios

Comentarios

Añadir nuevo comentario