Tu blog sobre Inteligencia Artificial y Gadgets

Cómo activar el Vision Mode de ChatGPT en tu iPhone

Un usuario de X nos enseña cómo ha conseguido que si iPhone actúe junto a ChatGPT como un asistente mejorado

Antes de nada decir que todo este hilo es gracias al usuario de X Álvaro cintas, especialista en inteligencia artificial, ciberseguridad y tecnología y además es Doctor en Ciencias Computacionales e ingeniería… Casi nada. Todo el mérito es únicamente suyo.

En el siguiente hilo de Twitter —disculpadme si no lo llamo X— El usuario @dr_cintas, al que te recomiendo encarecidamente que sigas nos cuenta cómo ha conseguido usar el Modo Visión de GPT-4o en su iPhone a través de la app «Atajos».

Como vimos en la presentación del nuevo modelo de lenguaje de ChatGPT, este LLM o Gran Modelo de Lenguaje va a ser capaz de identificar aquello que vea a través de la cámara en tiempo real, dando una descripción de lo que ve.

No es algo nuevo, ya que hemos visto en esta web cómo funciona el Modo Visión del Rabbit r1. En este caso, mientras GPT-4o despliega todas sus funcionalidades vamos a ver cómo usar el modo visión a base de atajos.

Convierte tu iPhone en el mejor asistente con ChatGPT

En primer lugar te dejo el hilo original:

Cómo funciona y pasos a seguir

Es realmente sencillo a la par que ingenioso. Como se ve en el vídeo, el usuario abre su cámara, la cual sirve de «ojos» para que al hacer una doble pulsación en la pantalla se active un atajo que permita «capturar la pantalla» para que ChatGPT nos diga lo que ve.

Tener tu iPhone y la API

En primer lugar hay que tener un iPhone —pero eso ya lo sabías— y una API Key de OpenAI que puedes conseguir en el siguiente enlace. Además asegúrate de tener créditos para poder llevar a cabo todo el proceso.

Construir el Atajo

Abre la aplicación Atajos de tu iPhone, pulsa el botón «+» y dale a «Añadir Acción« para generar un nuevo shortcut que sea el que dispare la acción que queremos ejecutar.

Para construir el nuevo atajo vamos a necesitar dos líneas de texto:

1- Por un lado el prompt que vamos a usar, que será el siguiente:

Proporciona un resumen del tema principal en la captura de pantalla y analiza su importancia, interés o humor. Limita la respuesta a 3 puntos concisos utilizando • para cada punto. Enfócate en el contenido, no en la interfaz de usuario, e incluye toda la información relevante.

2- La línea de texto que contiene la API Key de OpenAI que obtuviste en el paso anterior.

A continuación vamos a añadir el API en el comando «Conseguir contenidos de la URL» y vas a marcar los siguientes items tal y como se muestra en la imagen. Asegúrate de que queda de esta manera.

Imagen de @dr_cintas en Twitter

Ya casi hemos terminado. Para acabar añade los parámetros «obtener valor del diccionario» y «mostrar» la descripción generada por la imagen. Ya está casi listo. Nos queda el paso final.

Añadir la doble pulsación

Para que este atajo se active con una doble pulsación haz lo siguiente: Ve a Configuración -> Accesibilidad -> Tocar -> Tocar Atrás -> Doble Toque y agrega tu atajo para que cuando toques dos veces, tome la captura de pantalla y analice lo que estás viendo.

Y listo, de esta manera tendrás activada la opción del Doble Tap para que ChatGPT te dé una descripción detallada de lo que está viendo a través de la cámara, algo que llegará a los dispositivos en el futuro pero que aún no se sabe cuando.

¿Te gusta leer?

Prueba Amazon Kindle Unlimited totalmente GRATIS durtante los primeros 30 días

Relacionados

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

¿Dudas con la tecnología? Escríbeme en mis redes.