OpenAI continue de vanter les capacités de son modèle vidéo génératif Sora et les derniers clips se rapprochent davantage d'une production hollywoodienne que tout ce que nous avons vu de l'IA jusqu'à présent – et le tout à partir d'une seule invite.

Sora n'est disponible pour personne en dehors d'OpenAI (et pour un groupe sélectionné de testeurs), mais nous avons un aperçu de ce qui est possible en partageant le résultat sur les réseaux sociaux.

Lors de la première série de sorties vidéo, nous avons vu des scènes de chiens jouant dans la neige, un couple à Tokyo et un survol d'une ville minière d'or en Californie au 19ème siècle.

Nous voyons maintenant des clips provenant d'une seule invite qui ressemblent à des productions complètes avec plusieurs plans, effets et mouvements cohérents sur des vidéos d'une durée maximale d'une minute.

Quels sont les nouveaux clips ?

OpenAI Sora

Les clips que nous avons vus font allusion à l’avenir du véritable divertissement génératif. Lorsqu'elle est combinée avec d'autres modèles d'IA pour le son, la synchronisation labiale ou même des plates-formes de production comme LTX Studio, la créativité devient véritablement accessible.

Blaine Brown, un créateur sur X a partagé une vidéo combinant l'extraterrestre Sora par Bill Peebles avec Pika Labs Lip Sync et une chanson créée à l'aide de Suno AI pour créer un clip vidéo.

Le survol du musée par Tim Brooks est impressionnant par la variété des prises de vue et le flux de mouvement qu’il permet – ressemblant à une vidéo de drone mais à l’intérieur.

D'autres, comme un couple prenant un repas dans un aquarium glorifié, montrent ses capacités avec des mouvements complexes, gardant un flux constant tout au long du clip.

Comment Sora se compare-t-il ?

OpenAI Sora

Sora est un moment important dans la vidéo IA. Il utilise une combinaison de la technologie de transformation des chatbots comme ChatGPT et des modèles de diffusion de génération d'images trouvés dans MidJourney, Stable Diffusion et DALL-E.

À l'heure actuelle, il peut faire des choses impossibles avec aucun des autres grands modèles vidéo d'IA comme Runway's Gen-2, Pika Labs Pika 1.0 ou Stable Video Diffusion 1.1 de StabilityAI.

À l'heure actuelle, les outils vidéo d'IA disponibles créent des clips d'une durée comprise entre 1 et 4 secondes, ont parfois du mal à gérer des mouvements complexes, mais le réalisme est presque aussi bon que celui de Sora.

OpenAI Sora

Cependant, d’autres sociétés d’IA prennent note de ce que Sora peut faire et de la manière dont il a été produit. StabilityAI a confirmé que Stable Diffusion 3 suivra une architecture similaire et nous verrons probablement éventuellement un modèle vidéo.

Runway a déjà apporté des modifications à son modèle Gen-2 et nous constatons un développement de mouvements et de personnages beaucoup plus cohérent, et Pika a dévoilé Lip Sync comme une fonctionnalité remarquable pour apporter plus de réalisme aux personnages.