Hace casi exactamente un año, el pequeño emprendimiento OpenAI decidió arriesgarse y lanzar un producto de Inteligencia Artificial Generativa al mercado. Tenían disponible GPT-4, pero prefirieron hacerlo con GPT una versión menos avanzada, pero más probada. Lo hicieron, colocándolo dentro de un Chat y así salió al mercado ChatGPT. Curiosamente, era básicamente el producto que le habían mostrado a Bill Gates seis meses antes, el cual terminó de convencer a este que era algo que nunca había visto o imaginado. La expectativa de OpenAI es que habría unos cinco mil interesados, a la semana había un millón. Tampoco hay que olvidar que la tecnología que sustenta a GPT fue desarrollada en Google, pero estos no supieron aprovecharla.

Ahora finalmente, Google lanza al mercado Gemini, como competidor directo de GPT, con la primera iteración del modelo Gemini en su chatbot Bard. Google trata de recuperar el terreno perdido en la intensa carrera de la Inteligencia Artificial Generativa. El modelo de IA Gemini es multimodal, lo cual significa que reconoce y entiende diferentes tipos de información, incluyendo texto, audio, imágenes y video simultáneamente. Este algoritmo representa un reto determinante para Google y Alphabet, quienes han desarrollado  formidables capacidades de investigación en IA en la década más reciente. Google ha tenido que repensar su foco en el último año, al encontrarse con millones de desarrolladores construyendo sobre los algoritmos de OpenAI y Microsoft usando la tecnología para agregar nuevas capacidades a sus sistemas operativos y su software de productividad.

Google anunció tres versiones de Gemini: Ultra, el más grande y más capaz; Nano, significativamente más pequeño y más eficiente; y Pro, el de tamaño mediano y utilizado en Bard. El modelo Gemini Ultra, la línea superior para “tareas altamente complejas”, de acuerdo a Google es el primer modelo que “sobrepasa a expertos humanos” en el entendimiento de lenguaje multitarea, el cual prueba conocimiento global y habilidades de resolución de problemas en 57 materias que incluyen matemáticas, historia, medicina y ética. Gemini también puede entender y generar código en lenguajes de programación como Python, Java y C++. Gemini Pro, el modelo que fue presentado esta semana, superó al modelo original de ChatGPT, potenciado por GPT-3.5 en seis de los ocho benchmarks comúnmente usados para evaluar la inteligencia del software de IA. No existe ningún razón para pensar que Gemini también supera GPT-4 en esas mediciones, pero la próxima versión GPT-5 seguramente será mejor que esta.  Esta será la lucha de versiones que estaremos observando.

Ahora bien, para entregar sistemas de IA que entienden el mundo en formas que los chatbots actuales no pueden, los LLM (modelos grandes de lenguaje) deben ser combinados con otras técnicas. Tanto Google como OpenAI entienden que se requieren enfoques radicalmente nuevos. En OpenAI existe un misterioso proyecto nuevo denominado “Q”, el cual sugiere que la empresa está explorando ideas que van más allá del escalamiento de sistemas como GPT-4.

¡Qué viva la innovación!   ¡Qué viva la competencia!

Se hace referencia a Google Just Launched Gemini, Its Long-Awaited Answer to ChatGPT, Google Announces OpenAI Rival: Gemini y Google admits AI viral video was edited to look better. La imagen es cortesía de Bing Image Generator.