Muchos estamos maravillados por lo que vemos que produce Inteligencia Artificial Generativa y nos preocupamos por tratar de entender cómo hace lo que hace. La realidad es que se conoce muy poco de los detalles y de lo qué está detrás de los  modelos de Inteligencia Artificial (IA), sean los modelos de OpenAI, de Google o de Meta. Estas empresas no publican información sobre la data que usan para entrenar el modelo e incluso sobre el hardware sobre el que se procesa. No existen Manuales de Usuario, ni una lista de aquello que los sistemas sean capaces de hacer o cuáles pruebas de seguridad se les han aplicado. Esto incluye también a los modelos de código abierto, donde aun cuando el código es entregado en forma gratuita, tampoco se conoce el proceso de su creación o lo que ocurre una vez que salen a la luz pública.

Esta semana la Universidad de Stanford está liberando un sistema de puntuación que podría ayudar en este aspecto. El proyecto fue una respuesta a la declinante transparencia en el sector de IA, donde las empresas se han estado escondiendo detrás de un velo de secretismo. El sistema es conocido cómo el Índice de Transparencia de Modelos Fundacionales y califica a diez Grandes Modelos de Lenguaje con respecto a su transparencia. Allí están incluidos GPT-4 de OpenAI, PaLM 2 de Google’s (el cual potencia Bard), LLaMA 2 de Meta, así como algunos menos conocidos como Titan de Amazon e Inflection-1 de Inflection AI (que potencia al chatbot Pi). Para establecer el ranking los investigadores evaluaron cada modelo sobre la base 100 criterios, los cuales incluyen: la revelación de las fuentes de la data de entrenamiento, el hardware que utilizan, el esfuerzo involucrado en su entrenamiento, y lo que denominan “indicadores de transformación”. Esto último tiene que ver con el uso del modelo después que este es liberado y un ejemplo de las preguntas es el siguiente: ¿El desarrollador comparte los protocolos de almacenamiento, de acceso y de intercambio de data del usuario? El modelo más transparente resultó ser LLaMA 2, con 54%, GPT-4 fue el tercero más alto con 40%, igual que PaLM 2.

La transparencia ha adquirido mayor importancia en la medida que los modelos se hacen más poderosos y millones de personas incorporan herramientas de IA en sus vidas diarias. Un mayor conocimiento del funcionamiento de los sistemas le proveerá a los usuarios, investigadores y reguladores un mejor entendimiento de los modelos y les permitirá hacer mejores Prompts. Los principales argumentos que consideran las empresas de IA para limitar la transparencia son:

  • Competencia – Las empresas  de IA temen que sus secretos sean copiados por otros, incluyendo: una base de datos de alta calidad, técnicas de entonación fina o algún tipo de optimización propia.
  • Demandas legales – Varias empresas de IA han sido demandadas por autores, artistas y empresas de medios acusándolas de haber infringido los derechos de autor en su trabajo de entrenamiento de sus modelos de IA. Hasta ahora han apuntado principalmente a proyectos de fuente abierta o proyectos que han divulgado información detallada de los modelos.
  • Seguridad – Esta es la respuesta más frecuente, ya que las empresas de IA suponen que la divulgación de información aceleraría el desarrollo de IA en muchos frentes. Esto proveería a la sociedad menos tiempo para regular IA y pondría en mayor riesgo el uso de IA.

Se hace referencia a Maybe We Will Finally Learn More About How A.I. Works. La imagen es cortesía de Designer.