Desde hace seis meses millones de personas han quedado fascinadas con lo que la Inteligencia Artificial es capaz de hacer con ChatGPT ( … y ahora otros productos). Con ChatGPT la gente juega, y algunos ya trabajan, haciendo preguntas en su idioma y quedando pasmados con las respuestas. La curiosidad intelectual me ha llevado a tratar de entender como hace ChatGPT este proceso y dentro de lo que he podido entender y deducir voy a tratar de compartir esa información. Interesa conocer principalmente que hace el modelo con la pregunta y como arma la respuesta, pero también cuál y cómo se “entrena” la data. Asimismo son de interés, las habilidades “emergentes” del modelo, las cuales nunca habían sido consideradas por sus creadores, cuál es el límite de estos Grandes Modelos de Lenguaje (GML), como ChatGPT, y finalmente los riesgos que representan y su atenuación.
La etapa de desarrollo y aplicación de Aprendizaje Profundo, que comenzó alrededor de 2010 mejoró dramáticamente las habilidades de las computadoras para reconocer imágenes, para procesar audio y para jugar juegos. En esta etapa se utilizó profusamente el etiquetado humano. La Inteligencia Artificial Conversacional hace que la computadora use el lenguaje natural como medio de comunicación. Se ha evolucionado de Aprendizaje Profundo a Grandes Modelos de Lenguaje (en inglés se denomina LLM – Large Language Model). Utilizaremos el acrónimo GML a través del escrito y ChatGPT es un GML.
Antes de entrar en la descripción del proceso, quisiera compartir algunas observaciones sobre los GML:
- La mejora de la tecnología y el hacerla conversacional en lenguaje natural permitió dar el paso de Aprendizaje Profundo a Inteligencia Artificial Generativa.
- El etiquetado que realizaban miles de humanos es ejecutado directamente por el software. Las habilidades humanas son aplicadas al software.
- En GML, los modelos son en la realidad un gigantesco ejercicio estadístico.
- Los modelos son aplicables a cualquier tipo de información digital: texto, imágenes, video, voz.
- Los modelos se pueden desarrollar para cualquier tipo de bases de información específicas, incluyendo las corporativas y las personales.
- La ventaja en su aplicación práctica, la tienen las organizaciones que han dedicado esfuerzos a Inteligencia Artificial por varios años (Openai, Microsoft, Google, varias de las grandes empresas chinas).
- Ya están presentes en algunos productos y pronto veremos extensión de su aplicación. Para los que están interesados, si me escriben a lbeke@bekesantos.com les puedo hacer llegar un video del Copilot de Microsoft, es muy ilustrativo y algunos de sus clientes ya lo están probando.
- Los expertos opinan que ya estamos cerca del límite general de lo que se pueda alcanzar con los GLM, vendrán otros avances en Inteligencia Artificial.
A continuación mi limitado entendimiento de como funcionan los Grandes Modelos de Lenguaje (GML).
El análisis de la pregunta (prompt)
Nuestra comunicación con el modelo es a través de un pregunta (o prompt), que se realiza en el lenguaje natural de la persona y en su idioma. El lenguaje del idioma humano está compuesto por palabras, las cuales no pueden se manejadas por las redes neurales sobre las cuales se procesa el modelo. Por ello, el modelo convierte las palabras a un conjunto representativo de números, en un primer proceso que se denomina Tokenización. GPT-3, la base de una versión anterior de ChatGPT, realiza esto dividiendo el texto en pedazos de caracteres, llamados token, los cuales generalmente se tratan agrupados en conjuntos. Estos tokens, pueden ser palabras, como “amor” o “son”; sufijos o prefijos, como “pre” o “ismo” y puntuación, como ¿?. Como referencia el diccionario de gpt-3 contiene 2.048 tokens, mientras que gpt-4 puede manejar 32.000 tokens simultáneamente, lo cual equivale a una novela corta.
Además de que cada token tiene un valor numérico, a cada uno de ellos también se le agregan definiciones equivalentes (algo similar a sinónimos), lo cual permitirá al modelo una búsqueda más amplia. Estas definiciones equivalentes, son colocadas en un “espacio de significados”, donde las palabras con significados similares están ubicadas en áreas cercanas. Como ejemplo, si la pregunta incluye la palabra “vocabulario”, el espacio de significados puede incluir las siguientes palabras: vocabulario, lenguaje, lengua, habla. Esto le permitirá al modelo hacer una búsqueda mucho más amplia y completa.
A partir de allí, el GML completa el análisis de la pregunta desplegando su “red de atención”, la cual le permite realizar las conexiones entre las diferentes partes de la pregunta. El modelo GPM ya tiene las asociaciones referencia, las cuales fueron creadas en la fase de entrenamiento (la cual se explica en forma detallada más adelante) . Así la red de atención de la pregunta progresivamente codifica la estructura del lenguaje, el cual ve como números (llamados “cargas”) dentro de la red neural. Un GML entiende un lenguaje, pero lo hace puramente desde una perspectiva estadística. En la expresión “La promesa de grandes lenguajes ..” cada palabra tiene identificada una probabilidad de ubicación. En este ejemplo y dentro del contexto “promesa” tiene una probabilidad de 60% de ser antecedida de “La”, de 8% de preceder a “grande” y de 1% de preceder a “lenguaje”:
- La red de atención es clave para el aprendizaje sobre cantidades tan extraordinarias de data. Está construida dentro del modelo en una forma que le permite aprender y usar asociaciones entre palabras y conceptos, aun cuando ellas aparezcan a cierta distancia entre ellos dentro del texto.
- Muchas redes de atención operan en paralelo dentro de un GML y este paralelismo permite que el proceso se pueda correr usando múltiples unidades de procesamiento gráfico (gru).
La respuesta
Completado el análisis de la pregunta, ya se dispone de la conversión numérica del texto a tokens, se han identificado las definiciones equivalentes dentro del texto y se ha desplegado la red de atención con la conexión entre las diferentes parte de la pregunta. Por lo tanto el GML puede iniciar la respuesta. En este punto:
- Para cada uno de los tokens en el vocabulario del modulo, la red de atención produce una probabilidad de que ese token sea el más apropiado para ser utilizado en la oración que está generando. La decisión generalmente responde a lo que indican las estadísticas, pero el token con la probabilidad más alta no siempre es el seleccionado para la respuesta, esto depende del modelo.
- En general, el GML usando la base datos entrenada que dispone genera una palabra, que se va agregando a la respuesta que está generando y después alimenta la expresión extendida de vuelta así mismo. Este proceso se va repitiendo.
- El GML, comienza generando una primera palabra, esta nace de la pregunta exclusivamente. La segunda palabra es generada incluyendo la primera palabra en la respuesta, entonces la tercera palabra se adiciona a las dos primeras palabras generadas y así continua. Este proceso se denomina autoregresión y se repite hasta que se completa el GML con la finalización.
- En nuestros teléfonos inteligentes ya vemos la proposición que hace el software de la próxima palabra, este es un proceso similar pero mucho más sofisticado.
Entrenamiento
Un modelo GPM debe aprender estas asociaciones desde cero en su fase de entrenamiento – a través de miles de millones de corridas de entrenamiento. gpt-3 fue entrenado con varias fuentes de datos, pero el grueso proviene de capturas de todo el Internet entre 2016 y 2019, donde la información fue tomada de una base de datos llamada Common Crawl. Existe mucho texto basura en Internet, así que los primeros 45 terabytes fueron filtrados usando otro modelo de aprendizaje de máquina, con el objeto de seleccionar solamente el texto de calidad: 570 gigabytes en total, los cuales caben dentro de un laptop moderno. gpt-4 fue entrenado adicionalmente sobre un número desconocido de imágenes, probablemente abarcando varios terabytes
- Para entrenar, GML se autoexamina con el texto recibido. Toma un pedazo, ignora varias palabras al final del texto y trata de adivinar que pudiera estar allí. Entonces GML descubre la respuesta y la compara con su adivinanza.
- Por cuanto las respuestas están dentro de la propia data, estos modelos se pueden entrenar en un forma “auto-supervisada” sobre bases de datos descomunales, sin necesitar etiquetadores humanos.
- El objetivo del modelo es lograr que sus adivinanzas o suposiciones sean lo mejor posible, cometiendo el menor número de errores.
Habilidades emergentes
Aun cuando es posible escribir como funcionan las reglas, los resultados producidos por GML no son totalmente predecibles. Resulta que estos gigantescos ábacos puedan hacer cosas que no son factibles para los más pequeños, en formas que sorprenden incluso a aquellos que los crearon. Uno de los investigadores en Opeai ha contado hasta 137 de estas habilidades emergentes a través de diferentes GML. Las habilidades que emergen no son mágicas, ellas están representadas en alguna forma dentro de la data de entrenamiento de los GLM (o por las preguntas presentadas), pero no se hacen aparentes hasta que el GML supera un umbral en su tamaño. Dentro de un tamaño, un GML no sabe como escribir oraciones inclusivas de género en alemán. Al hacer el modelo más grande en tamaño, de pronto una nueva habilidad aparece. Gpt-4 pasó el examen de certificación de abogados, que ha sido diseñado para probar las habilidades de los abogados antes de poder recibir su licencia. gpt 3.5, algo más pequeño, no pudo pasar el examen.
Los límites de los Grandes Modelos de Lenguaje
El reciente éxito de los GML con la generación de texto convincente, así como sus asombrosas habilidades emergentes, se debe a la coalescencia de tres cosas y es relevante considerar el límite de cada una de ellas:
- las extraordinarias cantidades de data – La data es el límite más importante de mejora continua de los GML, representada por la cantidad de data disponible para entrenar. gpt-3 ya ha sido entrenado en lo representa toda la data de alta-calidad disponible para ser bajada de Internet. Un paper publicado en Octubre 2022 concluyó que “el inventario de data de lenguaje de alta calidad disponible será agotado pronto, posiblemente el año 2026. Por supuesto, existe texto adicional, pero está encerrado en pequeñas cantidades en bases de datos corporativas o en dispositivos personales, que no están disponibles en la escala y costo que permite Common Crawl.
- los algoritmos capaces de aprender de esa data – aquí dependerá de lo que cada emprendedor sea capaz de producir.
- el poder computacional para lograrlo – Las computadoras se harán más poderosas en el tiempo, pero no existe hardware venidero que ofrezca un salto en desempeño similar a lo que permitieron los procesadores gráficos en los años 2010, por lo tanto el entrenamiento de los grandes modelos probablemente también se hará más costoso.
Riesgos y su atenuación
Los principales riesgos están representados por (a) pérdida de control – está pudiera ocurrir, al incluirse los GML en procesos que permitan que los modelos tomen decisiones y (b) que los modelos sean programados tratando de acelerar el progreso e intentando crear ciclos o espirales de automejora. Los mecanismos más efectivos que se están aplicando para minimizar riesgos son (1) el uso del refuerzo humano, para proveer análisis y retroalimentación al modelo y (2) el uso de los Red-Teams, para hacer pruebas extremas del funcionamiento del modelo. Adicionalmente hay que considerar riesgos asociados a otros recursos, como la electricidad, donde el entrenamiento de gpt-3 uso 1.3 gigavatios-hora de electricidad y tuvo un costo estimado de US$4.6 millones para Openai, gpt-4 costará aproximadamente US$100 millones para ser entrenado y la mano de obra calificada, en ella ya se tiene escasez y con el éxito de los IA se harán mayores las necesidades.
Se hace referencia a Large, creative AI models will transform lives and labour markets y Babbage: How worrying is generative AI? . La imagen es cortesía de DALL-E.
Comentarios recientes