Así es como ocho empleados de Google inventaron la inteligencia artificial moderna

Se conocieron por casualidad, se engancharon a una idea y escribieron el documento “Attention Is All You Need”, el avance tecnológico más importante de la historia reciente

Ocho nombres figuran como autores en “Attention Is All You Need” (“Todo lo que necesitas es atención”), un artículo científico escrito en la primavera de 2017. Todos ellos eran investigadores de Google, aunque para entonces uno había abandonado la empresa. Cuando el colaborador más veterano, Noam Shazeer, vio un primer borrador se sorprendió de que su nombre apareciera en primer lugar, lo que sugería que su contribución era primordial. “No era lo que yo tenía en mente”, dijo.

Siempre es un ejercicio delicado decidir cómo incluir los nombres en una lista de autores: quién se lleva el codiciado primer puesto y quién queda relegado a un segundo plano. Especialmente en un caso como este, en el que cada participante dejó una huella en un verdadero esfuerzo de grupo. Cuando los investigadores se apresuraron a terminar su artículo, decidieron revertir el orden de los colaboradores. Añadieron un asterisco a cada nombre y una nota a pie de página en el que se leía: “Contribuyente de igual peso. El orden de la lista es aleatorio”. Los autores enviaron el artículo a una prestigiosa conferencia de inteligencia artificial (IA) justo antes de la fecha límite y, con ello, dieron el pistoletazo de arranque a una revolución.

A punto de cumplirse su séptimo aniversario, el artículo ha alcanzado un estatus legendario. Los autores partieron de una tecnología floreciente, una variedad de inteligencia artificial (IA) llamada red neuronal y la convirtieron en algo más: un sistema digital tan potente que su resultado puede parecer el producto de una inteligencia extraterrestre. Esta arquitectura, denominada “transformadores”, es la salsa no tan secreta que se esconde detrás de todos esos alucinantes productos de IA, como ChatGPT y generadores gráficos como Dall-E y Midjourney. Shazeer bromea diciendo que, si hubiera sabido lo famoso que se iba a hacer el artículo, “quizá se habría preocupado más por el orden de los autores”. Los ocho firmantes son ahora microcelebridades. “Hay gente que me pide selfies, ¡porque estoy en un artículo!”, dice Llion Jones, que es, al azar, el nombre número cinco.

“Sin los transformadores no creo que estuviéramos aquí”, dice Geoffrey Hinton, que no es uno de los autores, pero quizá sea también el científico de IA más destacado del mundo. Se refiere a los tiempos que vivimos, en los que OpenAI y otras empresas crean sistemas que rivalizan con el rendimiento humano y, en algunos casos, lo superan.

Los ocho autores han abandonado Google. Al igual que millones de personas, ahora trabajan de alguna manera con sistemas impulsados por lo que crearon en 2017. Hablé con los ocho para reconstruir la anatomía de un gran avance, una reunión de mentes humanas para crear una máquina que bien podría guardarse para sí misma la última palabra.

La historia de los transformadores comienza con el cuarto de los ocho nombres: Jakob Uszkoreit.

Uszkoreit es hijo de Hans Uszkoreit, un conocido lingüista computacional. A finales de los 60, Hans fue encarcelado durante 15 meses en su natal Alemania Oriental por protestar contra la invasión soviética de Checoslovaquia. Tras su liberación, escapó a Alemania Occidental y estudió informática y lingüística en Berlín. Cuando nació Jakob, trabajaba en un laboratorio de inteligencia artificial del instituto de investigación SRI de Menlo Park, California. Finalmente, la familia regresó a Alemania, donde Jakob fue a la universidad. No tenía intención de dedicarse a los idiomas, pero cuando iniciaba sus estudios de posgrado, hizo sus prácticas en Google, en la oficina de Mountain View, donde aterrizó en el grupo de traducción de la empresa. Estaba en el negocio familiar. Abandonó sus planes de doctorado y, en 2012, decidió unirse a un equipo de Google que trabajaba en un sistema que pudiera responder a las preguntas de los usuarios en la propia página de búsqueda sin desviarlos a otros sitios web. Apple acababa de anunciar Siri, un asistente virtual que prometía dar respuestas simultáneas a conversaciones informales, y los mandamases de Google se olieron una enorme amenaza competitiva: Siri podría comerse su tráfico de búsqueda. Empezaron a prestar mucha más atención al nuevo grupo de Uszkoreit.

“Fue un falso pánico”, dice Uszkoreit. Siri nunca amenazó realmente a Google. Pero agradeció la oportunidad de sumergirse en sistemas en los que las computadoras podían entablar una especie de diálogo con nosotros. En aquella época, las redes neuronales recurrentes habían empezado a superar de repente a otros métodos de ingeniería de IA. Las redes constan de muchas capas, a través de las cuales se pasa y repasa información para identificar las mejores respuestas. Las redes neuronales estaban cosechando enormes éxitos en campos como el reconocimiento de imágenes y, de repente, se estaba produciendo un renacimiento de la IA. Google reorganizaba frenéticamente su plantilla para adoptar estas técnicas. La empresa quería sistemas capaces de producir respuestas similares a las humanas, como autocompletar frases en correos electrónicos o crear chatbots de atención al cliente relativamente sencillos.

Pero el campo se topaba con limitaciones. Las redes neuronales recurrentes tenían dificultades para analizar fragmentos de texto más largos. Por ejemplo, Joe es jugador de béisbol y, después de un buen desayuno, fue al parque y bateó dos hits. Para que “dos hits” tenga sentido, un modelo lingüístico tiene que recordar la parte del béisbol. En términos humanos, tiene que prestar atención. La solución aceptada era algo llamado memoria a corto plazo (LSTM, por sus siglas en inglés), una innovación que permitía a los modelos lingüísticos procesar secuencias de texto más grandes y complejas. Pero la computadora seguía tratando esas secuencias palabra por palabra, una tarea tediosa, y no tenía en cuenta las pistas contextuales que podían aparecer más adelante. “Los métodos que aplicábamos era básicamente poner un parche para tapar una herida. No conseguíamos que el material funcionara a escala”, afirma Uszkoreit.

En 2014, surgió un enfoque diferente al que denominó autoatención, un tipo de red que puede traducir una palabra haciendo referencia a cualquier otro fragmento. Esas partes pueden aclarar la intención de una palabra y ayudar al sistema a producir una buena traducción. “Toma todo en cuenta, te da una forma simple de ver muchas entradas al mismo tiempo y selecciona de forma bastante efectiva”, afirma. Aunque los científicos de la IA tienen cuidado de no confundir la metáfora de las redes neuronales con el funcionamiento real del cerebro biológico, Uszkoreit sí parece creer que la autoatención es algo similar a la forma en que los humanos procesan el lenguaje.

Uszkoreit pensó que un modelo de autoatención podría ser más rápido y eficaz que las redes neuronales recurrentes. Además, su forma de tratar la información se adaptaba perfectamente a los potentes chips de procesamiento paralelo que se estaban fabricando en masa para apoyar el auge del aprendizaje automático. En lugar de mirar cada palabra en secuencia, las analiza todas juntas. Uszkoreit sospechaba que, de hacerse bien, la autoatención obtendría mejores resultados.

Nadie pensó que su idea iba a sacudir el mundo, incluido el padre de Uszkoreit, que había ganado dos premios de investigación de la Facultad de Google mientras su hijo trabajaba para la empresa. “La gente levantó las cejas, porque desechaba todas las arquitecturas neuronales existentes. ¿Adiós a las redes neuronales recurrentes? En las conversaciones que mantuve con mi padre en la mesa, no estábamos necesariamente de acuerdo”, dice Jakob Uszkoreit.

Uszkoreit convenció a algunos colegas para que realizaran experimentos sobre la autoatención. Su trabajo resultó prometedor y, en 2016, publicaron un artículo al respecto. Los experimentos del equipo solo utilizaban pequeños fragmentos de texto; Uszkoreit quería llevar su investigación más allá, pero ninguno de sus colaboradores estaba interesado. Como los jugadores que abandonan el casino con modestas ganancias, se dedicaron a aplicar las lecciones que habían aprendido. “La cosa funcionó. La gente de ese artículo se entusiasmó con la idea de cosechar los frutos y desplegarlo en una variedad de lugares diferentes en Google, incluyendo la búsqueda y, finalmente, los anuncios. Fue un éxito increíble en muchos sentidos, pero yo no quería dejarlo ahí”, comenta.

Uszkoreit sintió que la autoatención podía asumir tareas mucho mayores. Hay otra forma de hacerlo, argumentaba a cualquiera que quisiera escuchar, y a algunos que no. Trazaba su visión en pizarras blancas en el Edificio 1945, llamado así por su dirección en Charleston Road, en el extremo norte del campus de Google.

Un día de 2016, Uszkoreit almorzaba en una cafetería de Google con un científico llamado Illia Polosukhin. Polosukhin nació en Ucrania y llevaba casi tres años en Google. Estaba asignado al equipo que daba respuestas a las preguntas directas planteadas en el campo de las búsquedas. Pero no iba del todo bien. “Para responder en Google.com, necesitas algo que sea muy barato y de alto rendimiento. Tienes milisegundos para responder”, dice Polosukhin. Cuando Illia expuso sus quejas, Uszkoreit no tuvo problema en poner remedio. Sugirió: “¿por qué no usar la autoatención?”.

Polosukhin colaboraba a veces con un colega llamado Ashish Vaswani. Nacido en la India y criado sobre todo en Oriente Medio, había ido a la Universidad del Sur de California para doctorarse en el selecto grupo de traducción automática. Después se trasladó a Mountain View para unirse a Google, concretamente a una nueva organización llamada Google Brain. Ashish describe Brain como un grupo radical que creía que las redes neuronales iban a hacer avanzar la comprensión humana, pero seguía buscando un gran proyecto en el cual colaborar. Su equipo trabajaba en el Edificio 1965, al lado del equipo lingüístico de Polosukhin, y oyó hablar de la idea de la autoatención. ¿Podría ser ese el proyecto? Aceptó trabajar en él.

Los tres investigadores redactaron un documento de diseño titulado “Transformadores: autoatención iterativa y procesamiento para diversas tareas”. El nombre “transformadores” lo eligieron desde el día cero, comenta Uszkoreit. La idea era que este mecanismo transformara la información que recibía y permitiera al sistema extraer tanta información como un ser humano, o al menos dar la ilusión de que lo hacía. Además, Uszkoreit tenía buenos recuerdos de su infancia, cuando jugaba con las figuras de acción de Hasbro. “De pequeño tenía dos muñequitos de Transformers”, dice. El documento terminaba con una imagen caricaturesca de seis Transformers en un terreno montañoso, lanzándose rayos láser unos a otros.

También había algo de arrogancia en la frase con la que empezaba el documento: “Somos increíbles”.

A principios de 2017, Polosukhin dejó Google para fundar su propia empresa. Para entonces ya se habían incorporado nuevos colaboradores. Una ingeniera india llamada Niki Parmar había estado trabajando para una empresa de software estadounidense en la India cuando se trasladó a Estados Unidos. Obtuvo un máster en la Universidad del Sur de California en 2015 y fue reclutada por todas las grandes empresas tecnológicas. Eligió Google. Cuando empezó, se unió a Uszkoreit y trabajó en variantes del modelo para mejorar la búsqueda.

Otro nuevo miembro fue Llion Jones. Nacido y criado en Gales, le encantaban las computadoras “porque eran especiales”. En la Universidad de Birmingham hizo un curso de IA y sintió curiosidad por las redes neuronales, que se presentaban como una curiosidad histórica. Obtuvo su máster en julio de 2009 y, al no encontrar trabajo durante la recesión, vivió subsidiado por el gobierno durante meses. Encontró trabajo en una empresa local y luego se presentó a Google como un “Ave María”. Consiguió el puesto y acabó aterrizando en Google Research, donde su jefe era Polosukhin. Un día, Jones oyó hablar del concepto de autoatención a un compañero de trabajo llamado Mat Kelcey, y más tarde se unió al Equipo Transformers. Cuando Jones se encontró con Kelcey y le informó sobre el proyecto de los transformadores, Kelcey no se lo creyó. “Le dije que no estaba seguro de que fuera a funcionar, lo que es básicamente la mayor predicción incorrecta de mi vida”.

El trabajo del transformador atrajo a otros investigadores de Google Brain que también intentaban mejorar grandes modelos lingüísticos. Esta tercera oleada incluía a Łukasz Kaiser, un informático teórico de origen polaco, y a su becario, Aidan Gomez. Él había crecido en un pequeño pueblo agrícola de Ontario, Canadá; donde cada primavera, su familia aprovechaba los árboles de arce para obtener jarabe. En su tercer año en la Universidad de Toronto, se enamoró de la IA y se unió al grupo de aprendizaje automático del laboratorio de Geoffrey Hinton. Para ampliar su trabajo, se puso en contacto con gente de Google que había escrito artículos interesantes. Kaiser mordió el anzuelo y lo invitó a hacer prácticas. No fue hasta meses más tarde cuando Gómez se enteró de que esas prácticas estaban destinadas a estudiantes de doctorado, no a estudiantes universitarios como él.

Rápidamente, Kaiser y Gómez comprendieron que la autoatención parecía una solución prometedora y más radical al problema que estaban abordando. “Mantuvimos una conversación deliberada sobre si queríamos fusionar los dos proyectos”, dice Gómez. La respuesta fue un sí.

El equipo de transformadores se puso a construir un modelo de autoatención para traducir texto de un idioma a otro. Midieron su rendimiento con un parámetro llamado BLEU, que compara el resultado de una máquina con el trabajo de un traductor humano. Desde el principio, su nuevo modelo funcionó bien. “Habíamos pasado de no tener ninguna prueba de concepto a tener algo que mínimo estaba a la altura de las mejores aproximaciones alternativas a las LSTM”, afirma Uszkoreit. Pero comparado con la memoria a corto plazo, no era mejor.

Habían llegado a la cúspide, hasta que un día de 2017 Noam Shazeer se enteró de su proyecto por accidente. Shazeer era un Googler veterano que se había unido a la compañía en 2000 y una leyenda interna al colaborar en el primer sistema de anuncios de la compañía. Shazeer llevaba cinco años trabajando en el aprendizaje profundo y recientemente se había interesado por los grandes modelos lingüísticos. Pero estos modelos no estaban ni cerca de producir las conversaciones fluidas que él creía posibles.

Shazeer caminaba por un pasillo del edificio 1965 y pasó por delante del espacio de trabajo de Kaiser. “Recuerdo que Ashish estaba hablando de la idea de utilizar la autoatención, y Niki estaba muy emocionada al respecto. Me dije, ‘vaya, ¡es una gran idea! Parece un grupo divertido e inteligente de gente haciendo algo prometedor’”. Shazeer encontraba irritantes las redes neuronales recurrentes existentes y pensó: “¡Vamos a sustituirlas!”.

La incorporación de Shazeer al grupo fue decisiva. “Estos mecanismos teóricos o intuitivos, como la autoatención, siempre requieren una implementación muy cuidadosa, a menudo a cargo de un pequeño número de ‘magos’ experimentados, para dar siquiera señales de vida”, dice Uszkoreit. Shazeer empezó a hacer magia de inmediato. Decidió escribir su propia versión del código del equipo Transformer. “Tomé la idea básica y me la inventé yo mismo”, comenta. De vez en cuando le hacía preguntas a Kaiser, pero la mayoría de las veces, “simplemente actuaba durante un rato y volvía y decía ‘mira, funciona'”. Utilizando lo que los miembros del equipo describirían con palabras como “magia”, “alquimia” y “campanas y silbatos”, había llevado el sistema a un nuevo nivel.

“Fue el banderazo de salida”, dice Gómez. Estaban motivados y, además, querían llegar a tiempo al 19 de mayo, fecha límite para la presentación de trabajos en el mayor evento de IA del año, la conferencia Neural Information Processing Systems de diciembre. Cuando el invierno de Silicon Valley se convirtió en primavera, el ritmo de los experimentos se aceleró. Probaron dos modelos de transformadores: uno que se produjo con 12 horas de entrenamiento y una versión más potente llamada Big que se entrenó durante tres días y medio. Los pusieron a trabajar en la traducción del inglés al alemán.

El modelo básico superó a todos los competidores, y Big obtuvo una puntuación BLEU que pulverizó decisivamente los récords anteriores, además de ser más eficiente desde el punto de vista computacional. “Lo habíamos hecho en menos tiempo que nadie. Y eso era solo el principio, porque la cifra seguía mejorando. Cuando Uszkoreit se enteró, sacó una vieja botella de champán que tenía en su camioneta de expedición a la montaña”, dice Parmar.

Las dos últimas semanas antes de la fecha límite fueron frenéticas. Aunque oficialmente algunos miembros del equipo seguían teniendo escritorios en el edificio 1945, trabajaban sobre todo en el 1965 porque tenía una mejor cafetera espresso en la micrococina. “La gente no dormía”, asegura Gómez que, como becario, vivía en un frenesí constante de depuración y también elaboraba las visualizaciones y diagramas de flujo. En este tipo de proyectos es habitual quitar cosas para ver si lo que queda es suficiente para hacer el trabajo.

“Había todas las combinaciones posibles de trucos y módulos: cuál ayuda, cuál no. Quitémoslo. ¿Por qué el modelo se comporta de forma tan poco intuitiva? Es porque no nos acordamos de hacer bien el enmascaramiento. ¿Ya funciona? Bien, pasemos al siguiente. Todos estos componentes de lo que ahora llamamos el transformador fueron el resultado de este ensayo y error iterativo de ritmo extremadamente alto”. Las ablaciones, ayudadas por las implementaciones de Shazeer, produjeron “algo minimalista. Noam es un mago”, dice Jones.

Vaswani recuerda que una noche, mientras el equipo redactaba el trabajo, se tumbó en el sofá de la oficina. Mientras miraba las cortinas que separaban el sofá del resto de la habitación, le llamó la atención el estampado de la tela, que le pareció de sinapsis y neuronas. Gómez estaba ahí y Vaswani le dijo que su trabajo iba más allá de la traducción automática. “En última instancia, como ocurre con el cerebro humano, hay que unir todas estas modalidades: habla, audio y visión en una única arquitectura. Tuve la fuerte corazonada de que estábamos ante algo más general”, afirma.

En las altas esferas de Google, sin embargo, el trabajo se consideraba simplemente otro interesante proyecto de IA. Pregunté a varios de los responsables de Transformers si sus jefes los llamaban alguna vez para ponerles al día sobre el proyecto. “Nos dimos cuenta de que se trataba de algo muy importante. Y eso nos llevó a obsesionarnos con una de las frases finales del artículo, donde comentamos el trabajo futuro”, dice Uszkoreit.

Esa frase anticipaba lo que podría venir después: la aplicación de los modelos de transformador a básicamente todas las formas de expresión humana. “Estamos entusiasmados con el futuro de los modelos basados en la atención. Planeamos ampliar el transformador a problemas que impliquen modalidades de entrada y salida distintas del texto e investigar imágenes, audio y vídeo”, escribieron.

Un par de noches antes de la fecha límite, Uszkoreit se dio cuenta de que necesitaban un título. Jones comentó que el equipo se había decantado por el rechazo de las prácticas aceptadas, sobre todo los LSTM, por una técnica: la atención. Jones recordó que los Beatles titularon una canción “All You Need Is Love” (“Todo lo que necesitas es amor”), así que ¿por qué no llamar al artículo “Attention Is All You Need” (“Todo lo que necesitas es atención”)?

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

A %d blogueros les gusta esto: