Un YouTuber a recréé la vidéo trompeuse Gemini Ultra de Google, montrant les réponses en temps réel aux changements dans une vidéo en direct, en utilisant le modèle d'IA de vision GPT-4V d'OpenAI.

Google a dévoilé la semaine dernière ses modèles d'intelligence artificielle Gemini au son impressionnant, y compris le produit phare Gemini Ultra avec une vidéo qui semblait le montrer répondant en temps réel aux changements dans une vidéo – le problème est que Google l'a truqué.

La réalité du clip promotionnel de Google est qu'ils ont demandé à Gemini Ultra de résoudre les problèmes démontrés, mais à partir d'images fixes et sur une période plus longue.

Pour voir s'il est même possible de faire des choses comme demander à une IA de jouer au jeu de recherche de balle, d'identifier des emplacements sur une carte ou de repérer les changements dans une image pendant que vous la dessinez, Greg Technology a créé une application simple pour voir dans quelle mesure GPT-4V fonctionne correctement. gère le même concept.

Alors que s’est-il passé exactement avec les Gémeaux ?

Gemini Ultra a été formé au multimodal dès le départ. Cela signifie que son ensemble de données comprenait des images, du texte, du code, de la vidéo, de l'audio et même des données de mouvement. Cela lui permet d’avoir une compréhension plus large du monde et de le voir « comme le font les humains ».

Pour démontrer ces capacités, Google a publié une vidéo dans laquelle différentes actions étaient effectuées et la voix de Gemini décrivait ce qu'il pouvait voir.

Dans la vidéo, il semble que tout cela se passe en direct, les Gémeaux réagissant aux changements au fur et à mesure qu'ils se produisent, mais ce n'est pas exactement le cas. Bien que les réponses soient réelles, il s’agissait d’images fixes ou de segments plutôt qu’en temps réel. En termes simples, la vidéo était plus un exercice marketing qu’une démo technique.

Donc OpenAI GPT-4 peut déjà faire cela ?

Dans une courte vidéo de deux minutes, Greg, qui réalise des démos de nouvelles technologies pour sa chaîne, a expliqué qu'il était enthousiasmé par la démo de Gemini mais qu'il était déçu de constater que ce n'était pas en temps réel.

« Quand j'ai vu cela, j'ai pensé que c'était un peu étrange, car avec la vision GPT-4, sortie il y a un mois, il faisait ce qui est dans la démo, mais c'est réel », a-t-il déclaré.

La conversation avec GPT-4 est similaire à la version vocale de ChatGPT avec des réponses utilisant un ton naturel similaire. La différence est que cette vidéo est incluse et que le modèle OpenAI répond aux gestes de la main, identifie le dessin d'un canard sur l'eau et joue à la pierre, au papier et aux ciseaux.

Le code utilisé pour créer l'interface vidéo ChatGPT utilisée dans la vidéo de démonstration a été publié sur GitHub par Greg Technology afin que d'autres puissent également l'essayer par eux-mêmes.

Essayer le code GPT-4 Vision

J'ai installé le code produit par Greg Technology sur mon Apple MacBook Air M2 et je l'ai associé à ma clé API GPT-4V pour voir si cette vidéo fonctionnait et n'était pas une autre « fausse démo ».

Après quelques minutes, je l’ai installé et exécuté et cela a parfaitement fonctionné. J'identifie joyeusement les gestes de la main, ma tasse à café en verre et un livre. Il pourrait même me donner son titre et son auteur.

Cela montre à quel point OpenAI est en avance sur le peloton, notamment en termes de support multimodal. Alors que d'autres modèles peuvent désormais analyser le contenu d'une image, ils auraient du mal avec l'analyse vidéo en temps réel.