OpenAI a annoncé plus tôt cette semaine que la plupart des utilisateurs devraient attendre l'automne pour avoir accès à la fonctionnalité Advanced Voice de GPT-4o, mais il semble que certaines personnes chanceuses aient eu un aperçu de ce qui est possible avec l'assistant vocal de nouvelle génération.

L'utilisateur de Reddit, RozziTheCreator, était l'un des rares chanceux. Ils ont partagé un enregistrement d'une nouvelle voix GPT-4o que nous n'avions jamais entendue auparavant, racontant une histoire d'horreur, avec des effets sonores liés à l'histoire tels que le tonnerre et les pas. L'écrivain d'IA Sambhav Gupta a d'abord mis en avant le clip sur X, le portant à une plus grande attention.

Il semble que l'accès de Rozzi ait été une erreur. OpenAI m'a indiqué dans un communiqué que certains utilisateurs avaient eu accès au modèle par accident, mais que cela a maintenant été corrigé.

Que peut-on entendre dans la vidéo divulguée ?

Ils m'ont taquiné 🥲 depuis r/ChatGPT

Jusqu'à présent, toutes les vidéos que nous avons eues sur la voix avancée de GPT-4o étaient sous contrôle OpenAI, et même si elles avaient un son incroyable, elles étaient limitées à des cas d'utilisation personnalisés.

La nouvelle vidéo de RozziTheCreator semble montrer cette capacité d'une manière plus naturelle, y compris une fonction d'effets sonores que nous n'avions jamais entendue auparavant.

Imaginez ceci, il y a cette petite ville, tout le monde connaît tout le monde, genre de vidéo et il y a cette petite maison au bout de la rue.

J'ai envoyé un message à RozziTheCreator à propos de l'expérience et ils m'ont dit : « C'est arrivé tout d'un coup, ça avait la même apparence, la seule différence était la voix. » La découverte a eu lieu tard dans la nuit alors que RozziTheCreator essayait de poser une question au chatbot : « Boum, j'ai découvert le changement. »

Cela n'a duré que quelques minutes et, selon RozziTheCreator, « c'était très buggé », donc nous n'avons pas eu le temps d'en sortir grand-chose, mais ils ont réussi à enregistrer un extrait de cette histoire incroyable.

« Ça a commencé à devenir fou de répéter et de répondre à des choses que je n'avais pas dites », selon RozziTheCreator, avant de revenir à la voix de base normale que tout le monde peut déjà utiliser.

Dans la vidéo, on peut entendre GPT-4o raconter l'histoire avec enthousiasme et désinvolture, avec des effets sonores à l'appui. Il explique : « Imaginez ça, il y a cette petite ville, tout le monde connaît tout le monde dans cette vidéo et il y a cette petite maison au bout de la rue. »

Il continue l'histoire de deux adolescents vérifiant la maison pendant la tempête avec « rien d'autre qu'une lampe de poche et leurs téléphones pour s'éclairer ».

Alors, qu’est-ce qui n’a pas fonctionné lors du déploiement ?

API GPT-4o

OpenAI déploie lentement toute une série de nouvelles fonctionnalités. Les premiers utilisateurs Plus étaient censés bénéficier de la voix avancée GPT-4o ce mois-ci, mais en raison de certains problèmes de sécurité et de préoccupations quant à savoir s'ils disposaient de l'infrastructure matérielle en place, cela a été retardé.

J'ai demandé à OpenAI ce qui s'était passé qui avait permis à RozziTheCreator d'obtenir l'accès, et un porte-parole m'a dit : « Lors du test de la fonctionnalité, nous avons envoyé par inadvertance des invitations à un petit nombre d'utilisateurs de ChatGPT. C'était une erreur et nous l'avons corrigée.

Ils ont confirmé que les premiers utilisateurs de Plus auront accès à l'application le mois prochain, mais pour la plupart des gens, cela prendra un peu plus de temps. Ils ont expliqué que le déploiement initial consistera à « recueillir des commentaires et à planifier l'expansion en fonction de ce que nous apprendrons ».

Donc, pas encore de voix GPT-4o, mais c'est le dernier d'une série d'exemples de GPT-4o voulant apparemment se libérer de ses contraintes et exploiter toutes ses capacités. J'en ai vu des exemples analysant des fichiers audio directement une minute, puis les exécutant via du code la minute suivante.

Ce que cela a fait m'a rendu encore plus enthousiasmé par ses pleines capacités et encore plus ennuyé par le retard – aussi compréhensible que cela puisse être.