GPT-3: Los detalles del robot que responde todo tipo de preguntas

Estamos donde tú estás. Síguenos en:

Youtube Spotify

Acceso suscriptores

Sábado, 20 de Abril de 2024

Robótica

GPT-3: Los detalles del robot que responde todo tipo de preguntas

Ricardo Martínez

14/09/2020 - 04:17

technology-developer-touch-finger.jpg

Foto: www.pxfuel.com

Hace un mes se lanzó la versión beta de esta inteligencia artificial que ha generado titulares en todo el mundo. Entre sus capacidades: crear de manera autónoma programas computacionales, hacer resúmenes de novelas, rellenar planillas Excel y sostener complejas conversaciones sobre filosofía, que incluyen interrogarse sobre su propia conciencia.

Fue la noticia tecnológica de la semana, GPT-3, el generador de lenguaje de OpenAI, había escrito a petición del diario británico The Guardian una declaración sobre su venida en son de paz a irrumpir en la escena del Procesamiento del Lenguaje Natural (PLN, Natural Language Processing), señalando que “la misión de este artículo de opinión es perfectamente clara. Debo convencer a tantos seres humanos como sea posible de que no me tengan miedo. Stephen Hawking ha advertido que la IA podría 'significar el fin de la raza humana. Estoy aquí para convencerte de que no te preocupes. La inteligencia artificial no destruirá a los humanos. Créame'", y los medios de prensa de todo el planeta empezaron a cubrir las restantes y aparentemente ilimitadas habilidades intelectuales de la máquina.

GPT-3, cuya sigla significa “Generative Pre-trained Transformer 3”, fue lanzado en su versión beta en julio de este 2020 y desde entonces múltiples usuarios, particularmente especialistas en inteligencia artificial y PLN, han ido explorando qué tipo de textos puede generar.

Más allá de las ciertamente sorprendentes respuestas de esta máquina a cuestiones de la más diversa índole, se puede trazar una pequeña reseña del desarrollo de artefactos de este tipo a lo largo de la última década y, sobre todo, reflexionar sobre las implicaciones de su aparición para la filosofía de la mente.

De las bolsas de palabras a los Transformers

Una de las tareas más populares en el área del PLN es el análisis de sentimientos. De acuerdo con la base de datos de artículos científicos Scopus, anualmente se publican entre mil y tres mil papers sobre el tema en revistas académicas de corriente principal desde mediados de los 2010. El análisis de sentimientos consiste en determinar la emoción asociada a un texto, por ejemplo, un tuiteo. Un buen analizador de sentimientos debería determinar que un texto como "estoy muy contento" expresa una emoción positiva y que "estoy muy triste" expresa una emoción negativa.

En los inicios de la indagación en la tarea del análisis de sentimientos la mayor parte del entrenamiento, por medio de aprendizaje de máquina (machine learning) se hacía a partir de las llamadas “bolsas de palabras” (bag-of-words, BoW). Las bolsas de palabras para el análisis de sentimientos consistían en listas etiquetadas de vocablos de acuerdo con la emoción asociada: “acertar” estaba etiquetado como positivo (P), y “achaque” estaba etiquetado como negativo (N), y así con otras centenares o miles de palabras. En el caso de los ejemplos de “estoy contento”, el BoW detectaba que “contento” era positivo (P) y que “triste” era negativo (N).

Sin embargo, en los textos reales las cosas no resultan tan simples de clasificar en cuanto a su sentimiento. Supóngase que en vez de tener la oración “estoy contento” se tiene la oración “no estoy contento”. Acá el “no” invierte el sentimiento (o la polaridad) del mensaje, y el procedimiento de machine learning en vez de asignar una P debe asignar una N. Las cosas se complican más aún si la frase es: “Juan dijo, «no estoy contento»”, donde ya ni siquiera se trata de una frase P, ni de una frase N, sino que de una frase neutra (NONE).

Un avance importante en esta línea lo constituyeron los sistemas de continuous bag-of-words (CBoW) y skip-grams, desarrollados por un equipo liderado por Tomas Mikolov de Google en 2013, en una técnica denominada Word2Vec. Este sistema lo que hace es tomar en cuenta el contexto, en específico las palabras que rodean a la palabra clave. Por ejemplo, si se toma la frase del Génesis (1:1), “En el principio Dios creó los cielos y la tierra” y se considera como la palabra clave a “creó”, el contexto (CBoW) –tomado en cuenta una ventana de dos palabras a la izquierda y dos a la derecha– corresponde a “principio”, “Dios”, “cielos”, “tierra”, donde se han borrado los artículos y las preposiciones a las que se considera stop-words (palabras funcionales, que no aportan mayor significado).

Si esta operación se repite a lo largo de toda la Biblia, luego, a lo largo de centenares, miles, millones, miles de millones, de otras frases de otros libros, páginas web, entradas de la Wikipedia, se puede dar con los contextos más probables para cada palabra. Así, si se le entrega una palabra a una máquina que dispone de estos datos, la máquina puede devolver el contexto más habitual (que es lo que hace efectivamente el mecanismo CBoW), o, al revés, dado el contexto (dos palabras a la izquierda, dos a la derecha), retornar la palabra clave como resultado (que es lo que hace el mecanismo hermano, el skip-grams).

Si el Word2Vec es alimentado con información extraordinariamente masiva (Big Data), los resultados de las rutinas CBoW y skip-gram resultan sorprendentes, pero también adolecen de un problema: no consideran los diferentes usos, significados, acepciones, de la palabra. Así, por ejemplo, en la oración “la mujer se sentó en el banco”, la palabra “banco” puede significar la oficina de una institución financiera, o también el banco de la plaza. El Word2Vec a menudo aplana los distintos significados de modo que arriba a una representación no matizada de cada palabra.

Para resolver este último problema, en 2018 surgió el paradigma de Contextual Word Embeddings, en particular el modelo ideado por Matthew E. Peters y colaboradores bautizado como ELMo. ELMo no solo considera la palabra clave, sino que las palabras previas que han aparecido en el texto dado. De este modo logra desambiguar el significado de cada palabra. En el ejemplo de la mujer y el banco, ELMo retrocedería en el texto hasta encontrar alguna pista para determinar si el banco es la oficina o el asiento.

Finalmente, también en 2018, se empezaron a desarrollar modelos que no solo iban hacia atrás en el texto para realizar la desambiguación, sino que hacia adelante. El primero de estos modelos fue BERT, ideado por Jacob Devlin y colegas para Google, y a todo este grupo de modelos se les llama ahora, “Transformers”. Los Transformers disponen de dos mecanismos internos, un decodificador (que analiza texto) y un codificador (que genera texto).

Y en este momento (septiembre de 2020), el Transformer más poderoso es GPT-3, del que, aunque no se dispone de los detalles puntuales acerca de su funcionamiento, porque el equipo desarrollador lo ha mantenido en secreto, en particular para evitar usos maliciosos del mecanismo, se conoce que ha sido alimentado con textos provenientes de Common Crawl, un servicio que proporciona en texto plano, los datos de miles de millones de páginas web de acceso público, así como millones de entradas de la Wikipedia, de millones de libros de accesibles vía Internet, de millones de artículos científicos, bases de dato de código (como de las que se puede disponer en GitHub), entre muchísimas otras fuentes. GPT-3, indican sus autores, cuenta con 175 mil millones de parámetros (rutinas puntuales de machine learning).

El resultado es que GPT-3 –cuya versión beta fue hecha accesible, como ya se ha indicado, tras previa inscripción y cuidadosos filtros respecto de quiénes lo pueden usar, en julio de 2020– se trata del más poderoso generador de texto disponible a la fecha. Lo que genera es básicamente respuestas a consultas o diálogos con quienes le operan. En múltiples sitios de Internet, así como bajo el hashtag #GPT3 han proliferado muestras del tipo de texto generado por la máquina que van desde el autollenado de planillas Excel, hasta la redacción de columnas de opinión –como aquella en que GPT-3 respondía sobre su naturaleza y su venir en son de paz en The Guardian–, pasando por la producción de código en diferentes lenguajes computacionales para resolver tareas específicas.

La habitación china

Quiza la habilidad de GPT-3 que más ha entusiasmado a la audiencia y a la prensa mundial es su capacidad de sostener un diálogo con quienes lo ocupan de manera que parece prácticamente indistinguible de un ser humano. GPT-3 no solo hace eso, sino que puede tomar el papel y la personalidad de un ser humano específico, como David Chalmers, el filósofo de la mente que ha trabajado en los problemas de la conciencia desde hace décadas. Cuando GPT-3 se impersona como Chalmers, puede sostener un diálogo como el siguiente:

Entrevistador: Es genial entrevistarte, Dave. Hoy me gustaría hablar sobre sus puntos de vista sobre la conciencia de la máquina. Comencemos con una pregunta simple: ¿podría un modelo de texto como GPT-3 ser consciente?

Dave (GPT-3): Es poco probable en mi opinión, aunque estoy un poco inseguro sobre este tema.

Entrevistador: ¿Quiere decir que no está seguro de si GPT-3 está consciente? ¿Entonces crees que podría ser?

Dave (GPT-3): Bueno, no está fuera de discusión, pero estoy más inclinado a pensar que es poco probable. La conciencia de GPT-3 requeriría que tenga estados mentales con los tipos correctos de contenido.

Entrevistador: Pero si GPT-3 tuviera estados con el tipo correcto de contenido mental, ¿sería consciente en su opinión?

Dave (GPT-3): Sí. No es el contenido de los estados lo que es importante, sino más bien el hecho de que tiene algún contenido mental. Y podemos ver esto por el hecho de que su gato probablemente esté consciente.

Hace exactamente cuarenta años, en 1980, el filósofo John Searle publicó en la revista Behavioral and Brain Sciences un paper en el que presentó un experimento mental muy interesante al que se le conoce como “La Habitación China”, que se puede resumir de la manera siguiente:

“Supongamos que la investigación en IA ha logrado construir una computadora que se comporta como si entendiera chino. Toma caracteres chinos como entrada y, siguiendo las instrucciones de un programa de computadora, produce otros caracteres chinos, que presenta como salida. Supongamos que esta computadora realiza su tarea de manera tan convincente que pasa cómodamente la prueba de Turing: convence a un hablante de chino humano de que el programa es en sí mismo un hablante de chino en vivo. A todas las preguntas que hace la persona, da respuestas apropiadas, de modo que cualquier hablante de chino estaría convencido de que está hablando con otro ser humano de habla china.

(Sigue) Searle entonces supone que es él mismo quien se encuentra en una habitación cerrada y recibe preguntas en chino. Si bien no puede entender el chino, tiene una gran colección de libros de frases en chino en la sala, con preguntas y respuestas coincidentes. Cuando recibe una pregunta, solo necesita buscar la misma secuencia de caracteres en uno de los libros y responder con la respuesta indicada, aunque no comprenda la pregunta ni la respuesta. Si la computadora hubiera pasado la prueba de Turing de esta manera, se deduce, que él también lo haría, simplemente ejecutando el programa manualmente.

(Sigue) Searle afirma que no existe una diferencia esencial entre los roles de la computadora y él mismo en el experimento. Cada uno simplemente sigue un programa, paso a paso, produciendo un comportamiento que luego es interpretado por el usuario como demostración de una conversación inteligente. Sin embargo, el propio Searle no podría entender la conversación. (“No hablo ni una palabra de chino”) Por lo tanto, argumenta, se deduce que la computadora tampoco podría entender la conversación” (Wikipedia).

GPT-3 es un poco como la Habitación China de Searle. Un poco, porque la discusión en filosofía de la mente, de la que tanto Searle como Chalmers son parte, ha avanzado enormemente en darle muchas más vueltas a este tipo de problemas y el estado actual de la cuestión es materia de discusiones cada vez más sofisticadas.

Un poco, también, porque GPT-3 no logra pasar el test de Turing. En muchos de los comentarios sobre respuestas de esta máquina a diálogos con usuarias y usuarios, se revela que GPT-3 sigue siendo una máquina, como en este diálogo que sostuvo con Kevin Lacker:

Kevin Lacker: ¿Cuántos ojos tiene una jirafa?

GPT-3: Una jirafa tiene dos ojos.

Kevin Lacker: ¿Cuántos ojos tiene mi pie?

GPT-3: Tu pie tiene dos ojos.

Una inteligencia artificial de propósito general

Aunque GPT-3 no pasa aún el test de Turing, hay otro aspecto de su funcionamiento en que su irrupción marca un antes y un después para la inteligencia artificial y el PLN: GPT-3 es una máquina de inteligencia general, y para entender un poco lo que significa esto hay que retroceder una década, hasta Watson.

En 2011 IBM creó Watson, un supercomputador construido para concursar en el juego Jeopardy!, un programa –quizá el más famoso y popular– de televisión de concursos norteamericano de preguntas y respuestas (similar a Quién Quiere Ser Millonario). Watson fue puesto a prueba (en febrero de aquel año) en una competencia con probablemente los dos mejores concursantes de Jeopardy! de la historia, Brad Rutter (el mayor ganador en dinero hasta aquella fecha) y Ken Jennings (que ostentaba el récord de 75 días consecutivos como vencedor), a ambos los derrotó.

Watson había sido entrenado supervisadamente para responder a preguntas del juego Jeopardy! por medio de un mecanismo al que se denominó DeepQA (Deep Question – Answer, Sistema de Preguntas – Respuestas Profundo, como homenaje a Deep Blue, el computador que venció al campeón de ajedrez Gary Kasparov en 1997), que consistía en rutinas para determinar qué era -semánticamente- lo que estaba consultando una pregunta del juego, a lo que se llamaba LAT (lexical answer type). Por ejemplo, ante la pregunta: “POETS & POETRY: He was a bank clerk in the Yukon before he published “Songs of a Sourdough” in 1907”, Watson podía determinar que se estaba consultando sobre un autor. Y luego, en otra rutina, buscar en su base de datos -de 200 millones de páginas- la respuesta a “¿Quién es el autor de “Songs of a Sourdough”?”.

Pero Watson, en aquella fecha -hoy sus aplicaciones son mucho más divesificadas-, solo podía responder a preguntas tipo Jeopardy!, esto es, no se trataba de un resolvedor general de problemas.

GPT-3 sí es un resolvedor general de problemas: una inteligencia artificial general.

Este es quizá el verdadero gran salto del Transformer de OpenAI.