Midjourney construit le Holodeck — un nouveau modèle d'IA vous permet de « saisir » des images 3D
Midjourney, le principal générateur d'images IA, travaille sur une nouvelle fonctionnalité qui change complètement la façon dont nous interagissons avec les images générées. En utilisant de nouvelles formes de technologie 3D, vous pourrez entrer efficacement dans l'image.
Annoncée lors des dernières heures de bureau de Midjourney sur Discord, ce n'est qu'une des nombreuses nouvelles fonctionnalités en préparation qui pourraient être lancées d'ici la fin de l'année. Le PDG de Midjourney, David Holz, a également déclaré que nous verrions la v7 avant la fin de l'année, un modèle vidéo et un éditeur d'images amélioré qui vous permet de modifier des images externes pour la première fois.
La startup travaille depuis un certain temps sur la technologie 3D dans le cadre d'une vision plus large de création de quelque chose de semblable à un Holodeck de Star Trek où vous pouvez générer un monde et utiliser ce monde pour faire des films ou des jeux ou simplement passer du temps.
Comment fonctionnera le modèle 3D Midjourney ?
Selon Martin Nebelong, expert en intelligence artificielle générative, le modèle 3D de Midjourney sera une approche entièrement nouvelle, s'appuyant sur la technologie NeRF largement utilisée dans le développement de jeux. Un NeRF est un réseau neuronal capable de reconstruire des scènes 3D à partir d'une image 2D.
Peu de détails précis ont été dévoilés, mais Holz a déjà évoqué à plusieurs reprises sa volonté de construire un monde virtuel dans lequel chacun peut interagir et construire. Lors des dernières heures de bureau, il a déclaré qu'il souhaitait que les gens puissent facilement convertir une image Midjourney en un environnement 3D.
Il « permettrait le mouvement de la caméra dans certaines limites » et pourrait avoir un rendu à 60 images par seconde et un système de trajectoire de caméra pour permettre la sortie vidéo. Cela est indépendant du futur modèle vidéo prévu qui serait probablement plus proche de Runway ou de Sora.
D’autres entreprises comme Luma Labs, Adobe et Meta proposent des modèles texte-3D, mais ceux-ci sont généralement basés sur des objets plutôt que sur des environnements. Roblox travaille sur des environnements générés par l’IA et la startup Cybever a lancé une liste d’attente pour un modèle immersif de texte-3D.
Qu'est-ce qui a été annoncé d'autre par Midjourney ?
Selon un article publié sur X par Alfonso Rosenberg, les dernières heures de travail de Midjourney ont principalement porté sur des mises à jour plus immédiates, notamment autour de la personnalisation. Par exemple, pour certains modes, cette fonction sera activée par défaut et les utilisateurs pourront affiner plus facilement les résultats en effectuant simplement une sélection parmi quatre images générées.
Il y aura également un éditeur d'images mis à jour qui permettra de modifier des images externes dans Midjourney, bien que cela s'accompagnera de mesures de modération et de protection de la vie privée plus restrictives.
Le modèle vidéo de Midjourney pourrait arriver avant la fin de l'année mais il sera plus performant dans les styles illustratifs que photographiques. Enfin, la version 7 du modèle Midjourney est en phase de formation et sortira dans plus d'un mois mais moins de trois.
Rosenberg, qui citait un fil de discussion Discord de JamesGriffing, a ajouté qu'il y avait deux projets matériels en cours, qu'une nouvelle page d'exploration allait arriver et qu'ils testaient un outil de narration qui devrait sortir cette année pour « la construction du monde plutôt que la simple création d'images ».