Pika Labs, l'une des principales plates-formes vidéo d'IA, a ajouté une nouvelle fonctionnalité qui peut donner de la voix aux personnages générés.

Lip Sync a été construit en partenariat avec la plateforme audio AI ElevenLabs et vous permet de donner des mots aux personnes dans les vidéos générées et de synchroniser les mouvements de leurs lèvres avec le son.

Les cinéastes souhaitant avoir des personnages dans leur vidéo générée tenant une conversation devraient accepter qu'ils n'aient pas de mouvements de lèvres, ou croiser de vrais acteurs avec des clips générés.

Lip Sync change cela. Le nouvel outil est un moment important dans l’espace vidéo génératif de l’IA, qui lui-même a à peine un an. Je dirais que lorsqu'il est correctement déployé et que les problèmes initiaux sont résolus, c'est un moment aussi important que le lancement de Sora d'OpenAI.

Qu'est-ce que Lip Sync de Pika Labs

Jusqu’à présent, la plupart des clips vidéo générés par l’intelligence artificielle n’étaient que cela : des clips montrant une scène, une personne ou une situation. Ils n'ont pas eu l'interactivité d'un personnage parlant à la caméra ou à quelqu'un d'autre à l'écran.

Sans la possibilité d'avoir des personnages réalistes s'adressant au public, la plupart des vidéos ont été transformées en diaporamas ou utilisées pour des clips vidéo.

J'ai fait les deux, j'ai également réalisé des bandes-annonces fictives pour des émissions de télévision ou des publicités, le tout en utilisant la voix off plutôt que de donner une voix à des personnages spécifiques dans la vidéo.

Je n'ai pas encore essayé Lip Sync moi-même, car il n'est actuellement disponible que pour les utilisateurs abonnés au plan Pro ou supérieur, mais d'après ce que j'ai vu des autres générations, il n'est pas parfait mais très proche d'être prêt pour la production. À tout le moins, cela constituera un moyen peu coûteux de faire décoller rapidement un pilote.

La fonctionnalité peut convertir du texte en audio avec la voix fournie par ElevenLabs, ou un téléchargement audio direct si vous disposez déjà de votre propre son, comme un podcast ou un livre.

Des fonctionnalités similaires sont déjà disponibles à partir d'outils comme Synthesia, mais elles sont davantage axées sur le service client d'entreprise et génèrent des têtes parlantes plutôt que des personnages.

Pourquoi Lip Sync dans les vidéos IA est-il si important ?

Runway et Pika Labs ont été les plateformes dominantes de véritable vidéo générative au cours des derniers mois. Précoce sur le marché et itération rapide, Runway révélant son service de voix off synthétique l'année dernière – mais non synchronisé avec la vidéo.

La concurrence commence cependant à s'intensifier avec tous les grands acteurs explorant la vidéo générative et OpenAI révélant sa très impressionnante plate-forme vidéo Sora AI.

StabilityAI dispose également d'une nouvelle version de Stable Video Diffusion et Leonardo propose du mouvement pour chacune de ses images générées par l'IA. Google a Lumiere et Meta a Emu, obligeant les premiers joueurs à ajouter de nouvelles fonctionnalités avant que tout le monde ne les rattrape.

Que ce passe t-il après?

Sora

Jusqu’à présent, nous avons vu des silos dans l’IA générative. Des outils pour créer des images, des outils pour créer des vidéos, des services pour écrire un script et autre chose pour ajouter du son. La prochaine étape consistera en des niveaux de convergence plus élevés, avec l'émergence de plates-formes offrant une production complète de bout en bout à partir d'une simple invite texte.

ElevenLabs travaille également sur une bibliothèque d'effets sonores, et en combinaison avec Suno, nous pourrions bientôt voir une plateforme unique sur laquelle vous pourrez dire « prenez ce script écrit par ChatGPT et transformez-le en court métrage ».

Quelques minutes plus tard, vous auriez une chronologie avec une série de vidéos, des parties prononcées par des personnages utilisant des voix synthétiques d'ElevenLabs et des effets sonores et de la musique appropriés pour donner vie à la production complète.

On craignait que l'IA se transforme en Skynet et contrôle nos vies, mais les preuves (jusqu'à présent) semblent suggérer qu'elle veut simplement divertir.