La presentación de GPT-4o por OpenAI ha sido impresionante

GPT-4o ha llegado sin avisar repleta de novedades decididos a revolucionar el mundo de la IA

Cómo estoy disfrutando de esta época, tan oscura para algunos temas pero llena de luz y caminos por explorar en el campo de la tecnología y más concretamente de la inteligencia artificial y es que las novedades no paran de llegar.

Hace apenas unas horas OpenAI, en su Spring Update ha mostrado a través de una demo en directo con algunos de sus trabajadores su nuevo LLM o gran modelo de lenguaje basado en GPT4, que será conocido desde hoy como GPT-4o —la «o» es de «omni»—.

El vídeo, de menos de 30 minutos es una muestra fantástica del funcionamiento de GPT-4o

Cuándo vas a poder usar GPT4-o

Vamos a lo importante, y es que desde que empecé a ver la presentación he estado intentando actualizar la aplicación en mi móvil y desde el PC para probar todo lo que se ve en el vídeo, pero tranquilo, que va a ser muy pronto.

Tanto que de hecho, aunque va a ser escalonado, ya se puede probar en muchísimas de las cuentas de ChatGPT simplemente con cerrar y volver a abrir la aplicación, sin ni siquiera tener que actualizar, así que en unas horas todo el mundo podrá usarlo.

Cuánto cuesta GPT-4o

Esta es probablemente la mejor noticia del día, ya que el precio de GPT-4o —a través de ChatGPT— va a ser gratuito. Todas las cuentas que no paguen el premium van a poder disfrutar de las ventajas de usar este nuevo modelo.

La única diferencia hasta el momento es que los que pagamos la cuota de 22€ al mes por tener ChatGPT vamos a tener hasta 5 veces más interacciones que las cuentas gratuitas, pero en valores absolutos no sabemos qué diferencia hay.

Lo que han mostrado en el vídeo

En esta demo de GPT 4o se lo han pasado como niños pequeños con un juguete, y es que he de reconocer que me he sentido igual al verla, ya que tenía la sensación de estar experimentando eso mismo, un nuevo juguete con el que divertirme.

Han pasado casi media hora haciendo algunas pruebas para mostrar las nuevas capacidades de este modelo, y la verdad es que la mejora de todo lo relacionado con la comunicación entre máquina y humano me ha dejado de piedra.

Interacción conversacional en tiempo real:

Se mostró cómo GPT-4o puede manejar conversaciones en tiempo real sin latencias notables, respondiendo de manera instantánea y natural. Y tengo que admitir que después de haber probado estos modelos, lo de hoy parecía ficción.

De hecho se ha visto claramente ya que los presentadores interrumpían a la IA y cambiaban de interlocutor y GPT-4o ha sido capaz de mantener la conversación aunque cambiase la persona y el ritmo de lo que hablaban. Como un humano.

Respuesta a emociones y contexto:

En una parte de la demostración, GPT-4o respondió de manera adecuada a las indicaciones emocionales dadas por los presentadores, ajustando su tono y contenido en respuesta a la entrada emocional y física de cada uno.

Y no solo eso, sino que a través de la cámara —de la que hablaré más adelante— podía interpretar las emociones que mostraba el presentador, que estaba sonriendo y según GPT-4o lleno de alegría. Ha sido asombroso.

Traducción en tiempo real:

Se demostró la habilidad del modelo para funcionar como un traductor en tiempo real, facilitando una conversación fluida entre personas que hablaban diferentes idiomas, traduciendo instantáneamente del inglés al italiano y viceversa.

Tanto es así que incluso justo después de darle el prompt de que hiciese de traductora, ha respondido «perfetto«, dando a entender que no solo lo había entendido sino que había empezado a hacerlo de manera inmediata.

Análisis Visual y de Audio:

GPT-4o también demostró su capacidad para integrar y procesar información de múltiples fuentes sensoriales. Por ejemplo, se le pidió resolver un problema matemático escrito en un papel, lo cual implicaba reconocer y procesar visualmente el contenido escrito y luego proporcionar ayuda para resolverlo.

De hecho, y es para mí lo más interesante, no solo lo ha resuelto sino que ha guiado paso a paso al presentador a cómo hacerlo, corrigiéndolo si se equivocaba y animándolo cuando entendía el procedimiento a seguir.

Me imagino implementando esto en educación y me da miedo pensar hasta dónde podemos llegar una vez esta tecnología se normalice.

Interacción con Contenidos Multimedia:

En otra demostración, se mostró cómo GPT-4o puede interactuar con contenido visual, como fotos y documentos, permitiendo a los usuarios cargar imágenes y recibir información relevante o realizar tareas basadas en el contenido visual.

Si bien esto no es nuevo —el Rabbit r1 con su vision mode lleva meses intentando perfeccionarlo— hay que reconocer que es un paso adelante por parte de una de las grandes empresas tecnológicas en usar esta herramienta.

Una inteligencia artificial que es capaz de bromear

Me ha parecido asombrosa la capacidad que tiene de contextualizar, entender bromas, hacerlas y responder con ironía o sarcasmo, creo que es un paso verdaderamente importante para eliminar la barrera humano-máquina que hay actualmente.

Cómo es mejor GPT-4o que sus competidores

Te dejo las diferentes pruebas que se han ejecutado de este nuevo modelo con respecto a los diferentes LLM que hay en el mercado actualmente, incluidos los de Google o Meta, y verás que salvo en una de las pruebas, arrasa en todas.

La implementación de GPT-4o en el Rabbit r1

Apenas ha tardado unos minutos Jesse Lyu en salir a Discord y Twitter y mostrar su emoción tras este lanzamiento, y no es para menos. Parte del ecosistema del Rabbit r1 se basa en ChatGPT, y ellos usan su API en el gadget.

De este modo, esperamos que el dispositivo tenga integradas las funciones que tiene actualmente el modelo de OpenAI. Veremos cómo evolucionan estas alianzas, pero me va a encantar estar aquí cuando se vayan sucediendo…