Para mantener el rápido progreso de la Inteligencia Artificial Generativa es clave el acceso a más data – bien sea extraída de fuentes especializadas, generada en forma sintética o provista por expertos humanos. Igual que el agua en la Tierra o el crudo en los campos petroleros, las reservas de data más asequibles pronto se agotarán. El reto ahora es encontrar nuevas fuentes u opciones adecuadas e idóneas. Por supuesto, está claro que en el futuro seguramente aparecerán otras evoluciones de la IA que generarán nuevos y diferentes retos.
La data – opciones y características
Tal como se describe más abajo, Internet fue la fuente de donde se ha extraído la data que alimentó a la IA Generativa. Sin embargo, el apetito por la data ha crecido a una tasa que Internet ya no puede satisfacer. Se estima que para 2028 la data textual de alta calidad en Internet habrá sido utilizada. En el sector de tecnología, este fenómeno es conocido como la “barrera de la data”. Cómo manejar dicha barrera es una de las amenazas inminentes y probablemente aquella que tiene mayores posibilidades de ralentizar el progreso de la Inteligencia Artificial Generativa. Para enfrentar esta limitante se está trabajando en múltiples frentes, donde la calidad tiene preponderancia sobre la cantidad:
- Data adicionada – los laboratorios de IA no están simplemente entrenando sus modelos en todo lo existente en Internet. Ellos están filtrando y secuenciando la data para maximizar el aprendizaje del modelo. Indudablemente, la “información verdadera” es importante, pero también lo es realizar mucho “razonamiento”. Por ello, son especialmente valiosos los libros de texto académicos.
- Balance entre las fuentes de la data – esta continúa sigue residiendo en una zona oscura.
- Orden de la data – es relevante el orden en el cual el sistema encuentra los diferentes tipos de data.
- Especialización – si se aglomera toda la data en un solo tópico, el modelo pasa a ser especializado en dicho tema, pero olvida los otros conceptos.
- Formas de la data – las consideraciones pasan a ser más complejas, cuando la data no solamente se refiere a diferentes temas, sino que también viene en diferentes formas. Los modelos claves como gpt-4 y Gemini, en su entrenamiento ahora están consumiendo imágenes, videos y archivos de audio, además de texto. Esto se adiciona a la complejidad del entrenamiento.
- Pre-entrenamiento – las capacidades de los modelos también se pueden mejorar con una versión de Aprendizaje Auto Supervisado, conocido como pre-entrenamiento y se pueden refinar con data adicional en esa etapa. Esto puede ser “entonación fina supervisada”, donde se alimenta al modelo con pares de preguntas-y-respuestas recolectadas o producidas por humanos. Esto enseña a los modelos como deben lucir las buenas respuestas.
- Post-entrenamiento – las limitaciones que se están encontrando en el pre-entrenamiento, realzan la importancia del post-entrenamiento. Empresas de etiquetamiento como Scale ai and Surge tienen cientos de millones de dólares en ingresos recolectando data en post-entrenamiento. Ahora los etiquetadores son especialistas que pueden ganar hasta US$100 por hora. El post-entrenamiento ayuda a producir mejores modelos y es suficiente para muchas aplicaciones comerciales.
- Superación de la “barrera de la data” – para ella existe (a) data sintética – creada por las máquinas y por ello infinita y (b) data auxiliar – entrenada por expertos humanos para juzgar calidad e identificar aquello sobre lo que vale la pena construir. Esta retroalimentación de IA sintética se podría utilizar para entrenar al primer modelo. Este enfoque no es fácilmente aplicable a ambientes como salud o educación, por cuanto sería una solución costosa, fragmentada y parcheada. Depende de la certeza absoluta de la evaluación del experto.
- Derechos de autor – el material utilizado en el entrenamiento de los llm frecuentemente tiene derechos de autor y está siendo aprovechado sin el consentimiento de los propietarios de los derechos. Estos están aplicando diferentes tácticas para hacer valer sus derechos. Algunos como Getty Images o el New york Times han demandado a empresas como Stability, OpenAI y Microsoft. Otros han firmado acuerdos multi-millonarios.
Un poco de historia: aprendizaje automático y auto-supervisado
Ya en 2006 se estaba observando que la minería en Internet podía ayudar a transformar la investigación en Inteligencia Artificial. La investigación lingüística había identificado 80.000 “conjuntos de sustantivos sinónimos”, los cuales son grupos de sinónimos que describen básicamente lo mismo y además los miles de millones de imágenes en Internet podían ofrecer cientos de ejemplos de cada conjunto de ese tipo. Si se ensamblaban suficientes de ellos se obtendría un recurso de entrenamiento de IA jamás visto en ese campo. Así que definitivamente había que prestar atención a la data.
Internet proveía no solamente imágenes, sino también los recursos para el etiquetado de la data. Una vez que los buscadores entregaban imágenes de perros, gatos, sillas o lo que sea, dichas imágenes eran identificadas por humanos reclutados a través de un servicio de Crowdsourcing (Mechanical Turk). Este servicio le permitía a muchas personas ganar algo de dinero ejecutando tareas mundanas. El resultado fue la creación de una base de datos de millones de imágenes curadas y verificadas. Entonces un programa denominado AlexNet demostró el extraordinario potencial del “aprendizaje automático”, usando redes neurales con más capas de las previamente usadas.
La próxima etapa del desarrollo de los Modelos Grandes de Lenguaje (llm) también dependió de data en Internet. El ejercicio clásico de entrenamiento de un llm no trata de predecir la palabra que mejor describe el contenido de una imagen; trata más bien de identificar cual es la palabra faltante en un texto, sobre la base de las otras palabras que la rodean. En este tipo de entrenamiento no existe la necesidad de data etiquetada y curada; el sistema puede dejar palabras en blanco, puede adivinar y calificar sus respuestas en un proceso denominado “entrenamiento auto supervisado”. Sin embargo, para que esto funcione se requiere data muy abundante. El sistema mejora, mientras más texto se le provea. La data en Internet pasó a ser un combustible milagroso. Common Crawl es un archivo de mucho del contenido del Internet público, incluyendo 50.000 millones de páginas web y comenzó a utilizarse ampliamente en la investigación en IA. Nuevos Modelos lo suplementaron con data de más y más fuentes, como Book3, una compilación de miles de libros.
Se hace referencia a AI firms will soon exhaust most of the internet’s data. También aparece en mi Portal . La imagen es cortesía de Bing Image Creator.
Comentarios recientes