StabilityAI a publié un nouveau modèle vidéo 3D d'intelligence artificielle qui peut transformer une simple invite d'image en une vue entièrement animée de n'importe quel objet ou série d'objets.

Construit sur le modèle open source Stable Video Diffusion, largement utilisé par des entreprises comme Leonardo AI et StabilityAI elles-mêmes pour alimenter la génération de vidéos IA, il va encore plus loin et intègre des objets tridimensionnels dans le processus.

Stable Video 3D (SV3D) ajoute une nouvelle profondeur à la génération vidéo, en créant des maillages 3D multi-vues à partir d'une seule image, tout en conservant une plus grande cohérence pour les objets dans l'image vidéo.

Emad Mostaque, fondateur et PDG de StabilityAI a écrit sur X : « Il reste encore beaucoup de choses à venir, les composants du holodeck étant tous réunis. Chaque pixel sera généré.

Qu'est-ce que la vidéo 3D stable ?

Stable Video 3D s'appuie sur la technologie lancée dans les modèles précédents, notamment Stable Video Diffusion, le Stable Diffusion original et le modèle d'image 3D Zero123 publié par StabilityAI à la fin de l'année dernière.

À l'époque, Mostaque avait déclaré qu'il ne s'agissait que du premier d'une série de modèles 3D issus du laboratoire d'IA, et il semble qu'ils aient pour mission de faire du Star Trek Holodeck une réalité.

Le nouveau modèle se décline en deux variantes. Le premier est SV3D_u, qui crée des vidéos orbitales basées sur une seule entrée d'image sans aucune spécification spécifique de caméra.

Le second, SV3D_p, s'appuie sur les capacités du premier et permet des images uniques et des vues orbitales, conduisant à la création de vidéos 3D « filmées » le long d'un trajet de caméra spécifié.

Essentiellement, il analyse l'image que vous lui donnez, crée plusieurs vues de cet objet sous différents angles comme si une caméra se déplaçait autour de lui, puis la transforme en vidéo.

Dans quelle mesure Stable Video 3D fonctionne-t-il ?

Il reste encore beaucoup de choses à venir, les composants du holodeck étant tous réunis. Chaque pixel sera généré

Je n'ai pas encore pu essayer SVD 3D, mais d'après les exemples de clips, il semble faire du bon travail non seulement pour capturer l'objet et prédire les vues non visibles, mais également pour le mouvement de la caméra.

Jusqu’à présent, tous les clips se sont concentrés sur des objets uniques sur fond blanc. Cela pourrait s'avérer utile pour les entreprises souhaitant répertorier facilement un produit avec une vue complète à 360 degrés, même si cela soulève des questions sur l'authenticité, car la vue inverse serait prédite et non réelle.

J'aimerais voir comment il évolue pour gérer des images plus complexes et si les commandes de la caméra peuvent être appliquées à des scènes complètes, comme une rotation autour de deux personnes qui parlent ou d'un véhicule sur une route.

Certaines techniques de description de mouvement pourraient être développées et appliquées à la vidéo générative d’IA pour donner un plus grand degré de contrôle sur la façon dont la caméra se déplace dans le clip.

Il pourrait également être utilisé pour créer des objets interactifs ou des vidéos 3D d'objets dans un environnement virtuel tel que Meta Quest ou Apple Vision Pro.

Quelles données ont été utilisées pour entraîner Stable Video 3D ?

Diffusion vidéo stable 3D

La provenance des données de formation est un sujet particulièrement important et qu’un certain nombre de grands laboratoires d’IA hésitent à aborder. Cela inclut OpenAI – pour savoir si les vidéos YouTube faisaient partie de l'ensemble de données vidéo Sora AI.

StabilityAI a été ouvert sur la source des données de formation pour son modèle le plus récent, expliquant qu'il est formé sur un sous-ensemble organisé de l'ensemble de données Objaverse. Il s'agit d'une bibliothèque de millions d'objets 3D annotés utilisés par un certain nombre de services AI 3D.

« Nous avons sélectionné un sous-ensemble soigneusement organisé de l'ensemble de données Objaverse pour les données de formation, qui est disponible sous la licence CC-BY », a expliqué StabilityAI.

Avec cette licence, l'utilisateur final peut partager, adapter ou remixer le matériel de manière commerciale ou non commerciale de la manière qu'il souhaite, à condition de donner crédit et d'établir un lien vers la licence.