Los investigadores de Inteligencia Artificial, hace unos años descubrieron que esta era tan poderosa, que un par de intentos tuvieron que ser interrumpidos, ya que no era controlable el resultado. El pasado mes de Noviembre 2022, OpenAI lanzó ChatGPT y con eso rompió el dique que tenía retenidos para el público los extraordinarios avances de Inteligencia Artificial . Estamos viviendo una época emocionante apuntando a un futuro muy diferente, en una carrera que apenas deja espacio para recuperar el aliento, prácticamente en forma diaria aparecen nuevas herramientas y versiones mejoradas de la tecnología de Inteligencia Artificial.

Los anuncios más recientes de OpenAI le permiten a ChatGPT ahora “ver, escuchar y hablar” con dos nuevas funcionalidades. La primera es una actualización donde ChatGPT analiza y responde a imágenes. Con la segunda funcionalidad, los usuarios pueden hablarle a ChatGPT y obtener respuestas en una voz sintética de Inteligencia Artificial, tal como hoy se le habla a Siri o Alexa.  Estas funcionalidades son parte del impulso hacia los sistemas de Inteligencia Artificial Multimodal, que manejan texto, fotos, videos y cualquier otra cosa que el usuario decida lanzarles. El objetivo final es crear una IA capaz de procesar información en todas las formas que lo hace un ser humano. Aparte de estas dos importantes nuevas funcionalidades, ChatGPT ahora también permite obtener información actualizada de Internet.

La Inteligencia Artificial ahora te puede ver

El nuevo ChatGPT puede analizar imágenes e incluso texto dentro de estas.  Sus ojos no son perfectos, ya que por diseño se niega a responder la mayoría de las preguntas relacionadas con fotos de seres humanos. Si se le presenta una foto, un gráfico o un diagrama puede proveer una descripción detallada de la imagen y responder preguntas sobre sus contenidos. En la medida que la tecnología avance, es muy fácil imaginar un chatbot de IA, capaz de procesar información visual que será muy útil. Jardineros y tractores podrían usarla para identificar plantas. Fanáticos del ejercicio podrían aprovecharla para crear programas de entrenamiento personalizados, simplemente tomando una foto de su equipamiento en el gimnasio. Los estudiantes podrán utilizarla para resolver problemas visuales de matemáticas y ciencia, al igual que personas con limitaciones en la vista podrán aprovecharla para navegar el mundo con más facilidad. No sabemos cual será la aplicación que terminará proyectando está funcionalidad, pero seguramente ocurrirá y puede ser que pronto.  

Hablando con ChatGPT

Esta funcionalidad, que le permite a los usuarios hablarle a la App y recibir respuestas habladas, es la más impresionante. Tocando el ícono de los auriculares se puede comenzar a hablar. ChatGPT convierte las palabras en texto utilizando el sistema de reconocimiento de voz de OpenAI, el cual genera una respuesta de vuelta al usuario usando otra aplicación con un algoritmo de texto-a-voz, que utiliza cinco voces sintéticas de Inteligencia Artificial. Las pruebas demostraron que es muy diferente conversar con ChatGPT que con los asistentes de generaciones anteriores, como Siri y Alexa. Las voces sintéticas de ChatGPT suenan fluidas y naturales, con variaciones menores de tono y cadencia, que las hacen sentir menos robóticas. Poder conversar con una voz más humana con IA resulta un experiencia más íntima que leer respuestas en una pantalla. El hecho de no tener que transcribir a los dedos aquello que se tiene en la mente lleva a preguntar cosas distintas.

Adicionalmente, la nueva tecnología de generación de voz, desarrollada internamente por OpenAI, abre nuevas oportunidades de licenciamiento a terceros. Spotify tiene planes para usar los algoritmos de síntesis de lenguaje hablado de OpenAI como piloto en una funcionalidad que traduce podcasts a  idiomas adicionales.

Búsqueda actualizada

El “conocimiento” del chatbot estaba congelado en el tiempo, solo había información existente en Internet hasta el año 2021 y ahora se puede acceder a la información actualizada. Esto podría cambiar dramáticamente la forma en la cual las personas buscan información en Internet. Seguramente ChatGPT absorberá muchas de las preguntas que normalmente se dirigían a motores de búsqueda o a portales de noticias.  El uso de la plataforma para búsquedas puede ser un arma de doble filo. Es muy buena para obtener respuestas rápidas y más extensas. Pero, sin corroboración existe el riesgo que al información de ChatGPT pueda ser errónea.

Hasta el presente había varias razones por las cuales ChatGPT no hacía la búsqueda en Internet y una de ellas era el costo de computación. Se comenta que cada búsqueda le cuesta a OpenAI varios céntimos de dólar. Adicionalmente el uso de data limitada proveía una red de protección. El desarrollo de los modelos de lenguaje toma tiempo y exige muchos recursos, mientras que la introducción de data en tiempo real tiene el potencial de introducir información incorrecta, además de ciertas inquietudes de privacidad y éticas.

El mercado de Inteligencia Artificial

El lanzamiento de estas nuevas capacidades muestra que OpenAI está tratando sus modelos de Inteligencia Artificial, en los cuales ha venido trabajando por años, como productos con actualizaciones habituales e iterativas. El hacer ChatGPT más atractiva puede ayudar a OpenAI en su competencia con otras empresas como Google, Anthropic, InflectionAI y Midjourney, proveyendo una alimentación más rica de data de los usuarios para ayudar a entrenar sus poderosos modelos de Inteligencia Artificial. Al alimentar data visual y en audio a los modelos de Aprendizaje de Máquina, que ChatGPT usa, podría también ayudar a OpenAI en su visión de largo plazo de crear inteligencia más similar a la humana.  Muchos expertos piensan que, al igual que la inteligencia animal y humana que utiliza varios tipos de data sensorial, la creación de una IA más avanzada requerirá alimentar a los algoritmos también con información de video, imágenes y voz.  

Pero no solo OpenAI está desarrollando y lanzando productos al mercado, también actúan los competidores y una muestra es:

  • Amazon – La semana pasada presentó un avance de un sistema actualizado de Alexa que apunta a una conversación más fluida sobre “cualquier tópico” . Es impulsado parcialmente por un Gran Modelo de Lenguaje (LLM) y otras actualizaciones al ritmo y la entonación que la hacen sonar más natural.
  • Apple – Aun cuando no ha compartido públicamente sus planes sobre como competirá con ChatGPT, está probando el prototipo de un LLM para productos futuros.
  • Google – El muy sonado rumor es que el próximo modelo importante de Google, Gemini, es “multimodal”; posiblemente, más allá de texto, manejará video, imágenes y voz.  

Se hace referencia a ChatGPT Can Now Talk to You—and Look Into Your Life, ChatGPT Can Now Respond With Spoken Words, ChatGPT can now access up to date information y The New ChatGPT Can ‘See’ and ‘Talk.’ Here’s What It’s Like.  También aparece en mi portal. La imagen es cortesía de Bing Image Creator.