ChatGPT, el chatbot desarrollado por OpenAI, una empresa estadounidense, es capaz de proveer respuestas aceptables en cualquier tema, desde ingeniería nuclear hasta filosofía y estoicismo.  Lo puede hacer en inglés, donde en su más reciente versión, recibió una nota de 85% en preguntas-y-respuestas comunes.  En otros idiomas es menos impresionante. Los que usamos Inteligencia Artificial hemos detectado que la misma pregunta realizada en inglés o español no tienen respuestas idénticas.  La respuesta en inglés  es más rica, con más  información y más referencias.

Los llm (Modelos Grandes de Lenguaje) son entrenados  en texto extraído de Internet, dónde el inglés es la lengua franca. Como referencia, en inglés ha sido la data de entrenamiento del  93% de ChatGPT3 y del  47% del corpus de Common Crawl, donde 38% eran otros idiomas europeos y el chino y japonés solo representaban el 9%.  Ni  mencionar otros idiomas. Si no se toman medidas correctivas esto representa un problema cuando se desee exportar IA a países con menos  recursos y con otros idiomas. Aquí  surge la incógnita, si la respuesta a esta necesidad de poder aprovechar IA en todo el mundo provendrá de ajustes a las grandes modelos existentes o  si serán llm’s  desarrollados en forma local  en los diferentes países los que tendrán la oportunidad de brillar.   

India como referencia

En India, los servicios públicos están digitalizados  y existe un deseo mayor de fortalecerlos con IA.  Ya  dieron un primer paso,  cuando  el pasado mes de septiembre lanzaron un chatbot para ayudar a los  campesinos a aprovechar algunos beneficios del estado. El bot funciona integrando dos modelos de lenguaje. Los usuarios pueden hacer sus preguntas (prompts) en lenguajes locales (donde ya hay 8 idiomas soportados y pronto vendrán 5 más). Estas preguntas pasan a un software de traducción-de-máquina desarrollado en una universidad de la India que los traduce al inglés. La versión inglesa de la búsqueda es alimentada al llm y su respuesta es traducida de vuelta al idioma local original. El sistema parece funcionar, pero tener que traducir las búsquedas al lenguaje preferido del llm parece una solución alternativa algo tosca. La realidad es que el idioma es un vehículo para transmitir las visiones del mundo y de la cultura, no solamente el significado frío de las palabras.

Estrategias para adaptar los grandes llm’s a los diferentes idiomas

Muchos investigadores están tratando de hacer los llm más fluidos en idiomas menos universales, usando varios enfoques:

  • Mejora de la data sobre los que se entrenan los llm – Frecuentemente ello significa digitalizar inmensas cantidades de textos en un idioma. La data en un idioma específico es más importante para enseñar al  modelo las ideas culturales y las peculiaridades del idioma. En noviembre pasado, un equipo de investigadores de una universidad en Abu Dhabi liberaron un modelo en árabe denominado “Jais”.  
  • Modificación de la Tokenización – En el Procesamiento Natural de Lenguaje (NLP) y en el aprendizaje automático, la Tokenización se refiere al proceso de convertir una secuencia de texto en tokens, con los cuales funciona el modelo. Una estrategia que se está tratando de aplicar es la modificación de la  Tokenización, la  parte del llm que corta las palabras en trozos más pequeños para que el resto del  modelo lo pueda manipular.  La tokenización estándar del  Hindi requiere cuatro veces más tokens que en inglés. Ya hay un emprendimiento recortando significativamente ese número con su modelo “OpenHathi”, disminuyendo el costo  del proceso en un 75%.
  • Ajustes a los modelos existentes– Otro enfoque es ajustar los modelos después que han sido entrenados. Tanto “OpenHathi” como “Jais” han tenido pares de preguntas-y-respuestas elaboradas por humanos.  Este es un proceso similar a los chatbots en inglés, donde se hace esto para frenar la desinformación.  Los modelos también pueden aprender de la retroalimentación humana, donde los usuarios evalúan las respuestas del llm.

Habrá que ver qué también funcionará todo esto. La  cuarta parte de los adultos de la India son analfabetos, los ajustes a los modelos no resolverán esto. Ello implicaría el uso de la conversión texto-voz.  Este es un esfuerzo adicional, donde nuevos errores pueden aparecer. También es posible que los fabricantes de llm’s locales puedan establecer su negocio y afectar el dominio de las megaempresas de IA.

Se hace referencia a Why AI needs to learn new languages. La imagen es cortesía de Bing Image Creator.