Les chercheurs de Google ont récemment fait des heures supplémentaires, publiant une multitude de nouveaux modèles et idées. La dernière en date est un moyen de prendre une image fixe et de la transformer en un avatar contrôlable, sortant du dos d'un agent IA jouant au jeu.

VLOGGER n'est pas disponible actuellement, mais la démo suggère qu'il vous permettra de créer un avatar et de le contrôler à l'aide de votre voix – et cela semble étonnamment réaliste.

Vous pouvez déjà faire des choses similaires dans une certaine mesure avec des outils tels que la synchronisation labiale de Pika Labs, les services de traduction vidéo de Hey Gen et Synthesia, mais cela semble être une option plus simple et à bande passante inférieure.

Qu’est-ce que VLOGGER ?

Actuellement, VLOGGER n'est rien de plus qu'un projet de recherche avec quelques vidéos de démonstration amusantes, mais s'il devient un jour un produit, il pourrait s'agir d'une nouvelle façon de communiquer dans Teams ou Slack.

Il s'agit d'un modèle d'IA capable de créer un avatar animé à partir d'une image fixe et de conserver l'aspect photoréaliste de la personne sur la photo dans chaque image de la vidéo finale.

Le modèle enregistre ensuite également un fichier audio de la personne qui parle et gère les mouvements du corps et des lèvres pour refléter la manière naturelle dont cette personne pourrait bouger si c'était elle qui prononçait les mots.

Cela inclut la création de mouvements de la tête, d'expressions faciales, du regard, des clignements ainsi que des gestes de la main et des mouvements du haut du corps sans aucune référence au-delà de l'image et du son.

Comment fonctionne VLOGGER ?

Vidéo IA de Google Vlogger

Le modèle est construit sur l'architecture de diffusion qui alimente les modèles texte-image, vidéo et même 3D comme MidJourney ou Runway, mais ajoute des mécanismes de contrôle supplémentaires.

Vlogger passe par plusieurs étapes pour obtenir l'avatar généré. Il prend d'abord l'audio et l'image en entrée, les fait passer par un processus de génération de mouvement 3D, puis un modèle de « diffusion temporelle » pour déterminer les timings et le mouvement, enfin il est mis à l'échelle et transformé en sortie finale.

Essentiellement, il construit un réseau neuronal pour prédire le mouvement du visage, du corps, de la pose, du regard et des expressions au fil du temps en utilisant l'image fixe comme première image et l'audio comme guide.

La formation du modèle nécessitait un grand ensemble de données multimédia appelé MENTOR. Il contient 800 000 vidéos de personnes différentes parlant avec chaque partie de leur visage et de leur corps étiquetée à chaque instant.

Quelles sont les limites de VLOGGER ?

Il s'agit d'un aperçu de recherche plutôt que d'un produit réel et, même si elle est capable de générer un mouvement réaliste, la vidéo peut ne pas toujours correspondre à la façon dont la personne bouge réellement. Il s’agit toujours d’un modèle de diffusion et ils peuvent être sujets à des comportements inhabituels.

L'équipe affirme qu'elle a également du mal à gérer des mouvements particulièrement importants ou des environnements diversifiés. De plus, il ne peut gérer que des vidéos relativement courtes.

Quels sont les cas d’utilisation de VLOGGER ?

Personnalité Apple Vision Pro

Selon les chercheurs de Google, l'un des principaux cas d'utilisation est la traduction de vidéos. Par exemple, prendre une vidéo existante dans une langue particulière et éditer la lèvre et le visage pour qu'ils correspondent au nouvel audio traduit.

D'autres cas d'utilisation potentiels incluent la création d'avatars animés pour des assistants virtuels, des chatbots ou des personnages virtuels qui ressemblent et se déplacent de manière réaliste dans un environnement de jeu.

Il existe déjà des outils qui font quelque chose de similaire, notamment Synthesia, où les utilisateurs peuvent se rendre dans les bureaux de l'entreprise et créer leur propre avatar virtuel pour faire des présentations, mais ce nouveau modèle semble rendre le processus beaucoup plus facile.

Une utilisation potentielle consiste à fournir une communication vidéo à faible bande passante. Une future version du modèle pourrait permettre des conversations vidéo à partir de l'audio en animant l'avatar en image fixe.

Cela pourrait s'avérer particulièrement utile pour les environnements VR sur des casques comme le Meta Quest ou l'Apple Vision Pro, fonctionnant indépendamment des modèles d'avatar de la plateforme.