J'ai essayé le nouvel outil de conversion d'image en 3D de Stability AI – et il crée des modèles numériques en quelques secondes

StabilityAI, créateur de la famille Stable Diffusion de modèles d'images IA, a dévoilé un nouvel outil de conversion d'image en 3D appelé TripoSR qui peut rapidement transformer une image en objet.

Il existe un nombre croissant de modèles 3D génératifs, mais ce qui distingue TripoSR, c'est la vitesse à laquelle il peut créer un nouvel objet et sa capacité à s'exécuter sur votre ordinateur portable.

J'ai pu faire fonctionner le modèle sur mon MacBook Air M2 en 10 minutes environ à l'aide du programme d'installation en 1 clic de Pinokio. Il fallait environ une minute pour générer un objet à partir d’une simple image.

En utilisant une version cloud du modèle d'IA, d'autres utilisateurs ont pu le faire fonctionner dans Apple Vision Pro pour générer un objet 3D à partir d'une photo et le charger en tant qu'objet interactif sans retirer le casque.

Comment fonctionne TripoSR ?

Ce flux de travail est vraiment amusant ! 🤩 Créez n'importe quel objet 3D que vous pouvez imaginer dans Apple Vision Pro, FAST!Midjourney (ou autre génération d'images) -> TripoSR (modded) – Free USDZ ConverterPlus d'informations dans le fil ⬇️🥽🤯 pic.twitter.com/UsvsFkk3bK6 mars 2024

TripoSR est le résultat d'un partenariat entre StabilityAI et Tripo AI, une startup de modélisation 3D basée sur l'IA de VAST AI Research.

L'outil vous permet de prendre n'importe quelle image, de supprimer l'arrière-plan et de la convertir en un objet 3D entièrement rendu avec lequel vous pouvez interagir.

L'image sert de base à la reconstruction 3D. Il passe par un encodeur pré-entraîné pour le convertir en vecteurs avec des caractéristiques globales et locales de l'image.

Ils disposent des informations nécessaires pour ensuite générer un objet 3D. Il n'a besoin d'aucune entrée supplémentaire telle que les paramètres de la caméra ou sa position car TripoSR a été formé pour « deviner » ces informations lors de sa formation.

C'est pourquoi la génération est si rapide, mais c'est aussi pourquoi l'inverse du modèle généré manque parfois de détails.

Dans quelle mesure TripoSR fonctionne-t-il ?

Les modèles sont amusants et d'une résolution raisonnablement élevée, même si mes tests ont eu du mal avec la vue arrière d'un modèle, le rendant souvent vide. Cependant, le développement le plus impressionnant est la vitesse de génération.

Il génère un fichier obj sur mon Mac en 30 secondes à une minute et créera apparemment un fichier à partir d'une image en une demi-seconde sur une machine exécutant un GPU NVIDIA H100 Tensor Core.

Les objets sont interactifs et si vous sélectionnez la bonne image de départ, il réussit mieux à la transformer en objet 3D que certains autres outils, y compris ceux qui effectuent une analyse lidar 3D complète à l'aide d'un téléphone.

Quels sont les cas d’utilisation ?

Cette génération en temps quasi réel d'un objet unique pourrait conduire à une véritable création de monde virtuel à la volée, créant des jeux qui changent au fur et à mesure que l'utilisateur interagit.

S'ils sont réalisés dans un environnement de monde virtuel comme Apple Vision Pro, les utilisateurs peuvent générer de nouvelles illustrations ou de nouveaux objets pour remplir leur vue, ou même prendre un objet du monde réel et le transformer en un objet virtuel avec lequel vous pouvez interagir en pleine VR.

Pour l'instant, son utilisation principale sera la création d'art virtuel pouvant être importé dans Blender, Unity ou Unreal Engine pour être utilisé dans le développement de jeux de scènes virtuelles.