Un nouveau modèle d'intelligence artificielle appelé WALT peut prendre une simple saisie d'image ou de texte et la convertir en une vidéo photoréaliste. Les extraits incluent des dragons crachant du feu, des astéroïdes frappant la Terre et des chevaux marchant sur une plage.

L'une des avancées les plus notables réalisées par l'équipe de l'Université de Standford derrière WALT est la capacité de créer un mouvement 3D cohérent sur un objet et de le faire à partir d'une invite en langage naturel.

Créer une vidéo à partir d’images ou de texte est la prochaine grande frontière. Il s’agit d’un problème complexe à résoudre, qui nécessite plus que simplement assembler une séquence d’images, car chaque image doit être une suite logique de la précédente pour créer un mouvement fluide.

Qu'est-ce qui distingue WALT ?

WALT peut créer un mouvement 3D

Des entreprises comme Pika Labs, Runway, Meta et StabilityAI disposent toutes de modèles vidéo génératifs qui présentent différents degrés de fluidité, de cohérence et de qualité. Agrim Gupta, le chercheur derrière WALT, affirme qu'il peut générer des vidéos à partir de texte ou d'images et être utilisé pour des mouvements 3D.

Gupta dit que WALT a été formé avec des photographies et des clips vidéo stockés dans le même espace latent. Cela a permis de s'entraîner sur les deux en même temps, donnant au modèle une compréhension plus approfondie du mouvement dès le départ.

WALT est conçu pour être évolutif et efficace, permettant d'obtenir des résultats de pointe en matière de génération d'images à travers trois modèles couvrant l'image et la vidéo. Cela permet une résolution plus élevée et un mouvement cohérent.

« Bien que la modélisation générative ait récemment connu d'énormes progrès en matière d'image », ont écrit Gupta et ses collègues, « les progrès en matière de génération vidéo sont restés à la traîne ». Il estime qu’un cadre unifié pour l’image et la vidéo comblera l’écart entre la génération d’images et de vidéos.

Comment WALT se compare-t-il à Runway et Pika Labs ?

WALT a été formé aux images et à la vidéo

La qualité du mouvement dans WALT semble être une avancée par rapport aux autres modèles vidéo récents, notamment autour du mouvement 3D comme un hamburger tournant sur une table ou des chevaux marchant. Cependant, la qualité du résultat ne représente qu’une fraction de celle construite par Runway ou Pika Labs.

Cependant, il s’agit d’un modèle de recherche et l’équipe est en train de le construire à grande échelle. Premièrement, le modèle de base produit de petits clips de 128 x 128 pixels. Celui-ci est ensuite suréchantillonné deux fois pour atteindre une résolution de 512 x 896 à huit images par seconde.

En revanche, le Gen-2 de Runway peut créer des clips vidéo jusqu'à 1536 x 896, bien que cela nécessite un abonnement payant. La version gratuite par défaut génère une vidéo jusqu'à 768 x 448, donc une résolution pas aussi élevée que possible avec WALT.

Pika Labs fonctionne à des résolutions similaires, mais Runway et Pika Labs peuvent générer jusqu'à 24 images par seconde, plus proche de celle d'une vidéo de qualité de production que les huit images de WALT.