Desde el lanzamiento de Chat-GPT en Octubre 2022, el impacto de Inteligencia Artificial en todos los sectores ha sido tan extraordinario que surge la pregunta de si este es sostenible o incluso superable. Recientemente, varias empresas como Anthropic, Google y Meta han lanzado nuevas versiones de sus modelos (Claude, Gemini y Llama) superando a ChapGPT en varios aspectos. Por su lado, se espera que en la próxima versión de gpt-5, este tenga capacidades que excedan significativamente las actuales. Los rumores mencionan que la próxima generación de modelos podrá ejecutar tareas de múltiples-pasos o analizar con cuidado preguntas complejas antes de soltar abruptamente la primera respuesta algorítmica disponible. También, los inversionistas están dispuestos a apoyar la nueva generación de modelos, donde se espera que estos exigirán miles de millones de dólares para ser entrenados.
Basándonos exclusivamente en los números, el futuro parece presentar crecimiento exponencial ilimitado para la IA. Esto es de acuerdo a aquellos que apoyan la “hipótesis del escalamiento”, donde para exceder las capacidades humanas solamente se requiere más data y chips más poderosos. Esta idea fue documentada en 2022 en un paper denominado “Leyes de escalamiento” y ha sido la guía del campo de la IA Generativa desde ese momento. De aquello que no existe duda, es que la construcción de la próxima generación de modelos costará mucho más. Expertos opinan, que el entrenamiento de los modelos actuales que costó US$100 millones, se multiplicará por diez. Hasta el presente, el escalamiento de la data y de la potencia computacional utilizada para entrenar los modelos de IA han representado una forma segura para el éxito. Sin embargo, mirando a la frontera técnica existen obstáculos evidentes, tratemos de profundizar en esto:
Data – la cual probablemente representará el cuello de botella más inmediato. Se estima que para el año 2026 se agotará la data textual de alta-calidad. Algunos laboratorios están acudiendo al Internet privado, comprándole data a corredores de data y a páginas de noticias. Otros están aprovechando las enormes cantidades de data visual y en audio, las cuales podrían ser usados para entrenar modelos más grandes por décadas. Conviene mencionar, que el video es particularmente interesante en la enseñanza de modelos de IA con respecto al mundo físico que los rodea.
La data también se puede crear. Hay empresas que han construido grandes redes de personas que generan y comentan sobre data, incluyendo investigadores con nivel de PhD resolviendo problemas en matemáticas o biología. Esto ya le está costando cientos de millones de US$ anuales a los laboratorios de IA. Un método menos costoso es producir “data sintética”, donde un modelo genera miles de millones de páginas de texto para entrenar a un segundo modelo. Este método tiene sus limitaciones, por cuanto modelos entrenados con este método, pueden perder el conocimiento previo y generar respuestas poco creativas. Asimismo, se puede entrenar modelos con data sintética a través de colaboración o competencia. Sin embargo, la mayoría de los problemas del mundo real (manejar un negocio o ser un buen médico) son más complejos que jugar un juego, por cuánto no existen casos claros de movidas ganadoras. Por ello, para entrenar modelos se sigue requiriendo la intervención humana, la cual puede diferenciar entre respuestas de buena o mala calidad.
Mejor hardware – es otra ruta hacia modelos más poderosos. Los chips actualmente utilizados para IA (gpus) fueron originalmente diseñados para juegos de video, debido a su habilidad para hacer múltiples cálculos intensivos en paralelo. Una forma de desbloquear las nuevas capacidades puede implicar usar chips diseñados específicamente para modelos de IA. Estos nuevos modelos que aprovechen dichos avances serán más confiables y mejores manejando requerimientos más complejos de los usuarios. Esto podría ocurrir a través de “ventanas de contacto” más grandes. En dicha ventana, el usuario podría introducir una mayor cantidad de texto, imagen o video y ello pareciera ser una manera efectiva para disminuir las alucinaciones.
El cerebro humano – Algunos desarrolladores de modelos buscan más recursos, mientras que otros piensan que la “hipótesis del escalamiento” está arribando a su límite. Restricciones físicas, cómo el costo de la energía, sitúan limitaciones prácticas en el diseño de modelos más grandes. Algunos investigadores se están concentrando en el cerebro humano – la fuente original de inspiración del campo de IA. El adulto promedio puede razonar y planificar mejor que los mejores llm, a pesar de utilizar menos potencia y mucha menos data. Estos investigadores piensan que la IA necesita mejores algoritmos de aprendizaje y ello es posible ya que el cerebro los tiene. También hay los que piensan que el problema es la “retroprogramación”, el algoritmo a través del cual aprenden los llm. Todos los llm son redes neurales acomodadas en capas, que reciben entradas y las transforman en las salidas (resultados) esperadas. Cuando el llm está en fase de aprendizaje, él compara sus predicciones contra la versión de la realidad disponible en su data de entrenamiento. Cuando estos divergen, el algoritmo hace modificaciones menores a cada capa de la red para mejorar las predicciones futuras. Este proceso es incremental y computacionalmente intensivo.
Transformadores – Las redes neurales que se utilizan actualmente en los llm están estructurados en una forma ineficiente. Desde 2017, la mayoría de los modelos de IA han usado un tipo de estructura de red-neural conocida como Transformador (Transformer y corresponde a la “t” en GPT), lo cual les ha permitido establecer relaciones entre bits de data que se encuentran muy alejados dentro del conjunto de la data. El escalamiento de las ventanas de contexto es computacionalmente muy ineficiente. Cómo respuesta, se está probando una arquitectura alternativa (Mamba), que se aproxima más a la forma en que funciona la comprensión humana.
Razonamiento y planificación – son áreas de mejora en los llm. Los llm actuales son solamente capaces de pensamiento en “sistema 1”. Para los humanos este es el modo automático de pensamiento involucrado en decisiones instantáneas. Como contraste, el “sistema 2” es más lento y consciente e involucra iteración. Para los sistemas de IA, ello puede requerir algoritmos capaces de algo denominado búsqueda – la habilidad de examinar diferentes cursos de acción antes de seleccionar la mejor.
Planificación avanzada, vía búsqueda – implica tratar de programar la habilidad de razonar y de hacer predicciones directamente dentro del sistema de IA. Como ejemplo (jepa) está siendo entrenado para predecir bloques más grandes de texto y de imágenes que los actualmente manejados.
Por ahora, experimentos como Mamba y jepa son la excepción. Hasta que la data y el poder de computación no lleguen a ser barreras insuperables, los modelos basados en transformadores seguirán siendo los preferidos. Ahora bien, en la medida que los ingenieros los propulsen hacia aplicaciones cada vez más complejas, la experticia humana seguirá siendo esencial en el etiquetado de la data. Esto indudablemente ralentiza el progreso.
Se hace referencia a Large language models are getting bigger and better. La imagen es cortesía de Bing Image Creator.
Comentarios recientes