La division de recherche de Microsoft a lancé un nouveau modèle d'intelligence artificielle capable de prendre une image fixe et de la transformer en gif en quelques secondes.

Pix2Gif utilise le même type de modèle de diffusion que celui trouvé dans de nombreux modèles de texte-vidéo d'IA comme Runway et Pika Labs, mais adopte une approche de « traduction d'image ».

Dans un article sur le nouveau modèle accessible au public, les chercheurs affirment qu'ils se sont concentrés sur le guidage du mouvement via une invite de texte parallèlement à la saisie de l'image. Il « transforme spatialement » les caractéristiques de l'image originale en fonction de l'invite de texte.

Si vous lui donnez une image d'un train et dites « se déplaçant sur les voies », cela devrait donner l'impression que le train bouge – mais comme il s'agit d'un gif et qu'il ne dure que 2 secondes, il n'ira pas très loin. Il s’agit d’une nouvelle approche de la génération d’IA, associant des modèles d’image, de vidéo et 3D.

Comment accéder à Pix2Gif ?

Image Pix2Gif

Comme beaucoup de modèles d'IA récents, il s'agit davantage d'un projet de recherche que d'un produit Microsoft accessible au public qui pourrait être intégré à Copilot. Mais il est disponible pour essayer et le code peut être téléchargé.

Cela signifie que vous pouvez l'exécuter localement sur votre ordinateur portable. Pour l'instant, le meilleur moyen est d'utiliser l'environnement de test où vous pouvez lui donner une image, une invite de texte et obtenir un gif.

Dans mes expériences, il a fallu environ une minute pour générer un gif de 2 secondes à partir d'une image fixe, bien que si vous disposez d'un GPU rapide, cela puisse être considérablement plus rapide.

Tous les gifs de l'histoire ont été créés à l'aide de l'outil. Il s'agissait d'images IA générées à l'aide d'Adobe Firefly, puis exécutées via Pix2Gif pour les animer.

Quels sont les cas d’utilisation de Pix2Gif ?

Image Pix2Gif

L'aspect de déformation guidée par le mouvement est peut-être plus intéressant que la possibilité de créer un gif à partir d'une image fixe, car cela pourrait être appliqué à d'autres modèles de type vidéo à l'avenir et permettre potentiellement d'éditer des gifs.

Quelque chose comme cela pourrait être incorporé dans Microsoft Designer ou Paint pour faciliter l'animation, ou même apporter des ajustements à une image à l'aide de l'IA.

Pour entraîner le modèle, ils ont utilisé 100 000 gifs animés avec les légendes appropriées, puis ont extrait les images des gifs et utilisé les légendes comme invite de texte.

On ne sait pas clairement d'où viennent les gifs et c'est peut-être pour cela qu'ils sont réservés à un projet de recherche. Un modèle public et commercial nécessiterait des données sous licence, surtout si elles étaient intégrées à un produit Microsoft.

Pour l'instant, il s'agit d'un outil de diversion amusant, un moyen d'expérimenter l'apparence de votre image fixe si elle ne comportait que quelques images supplémentaires. Personnellement, je m'en tiendrai aux outils vidéo d'IA comme Runaway, Pika Labs et le prochain OpenAI Sora.