L’un des Saint Graal de la narration générative par l’IA est de pouvoir créer une cohérence entre les personnages dans les images et les vidéos. Maintenant, MidJourney a rendu cela un peu plus facile.

La nouvelle fonctionnalité de cohérence des personnages fonctionne de la même manière que l'utilisation d'une image de référence pour le style et les scènes, mais se concentre sur les traits de caractère spécifiques trouvés dans l'image source.

L'un des principaux cas d'utilisation pourrait être la création de romans graphiques ou la transformation des images générées par MidJourney en courts clips vidéo et l'utilisation de quelque chose comme la synchronisation labiale de Pika Labs pour animer les lèvres et permettre une variété de scènes avec le même personnage.

Comment fonctionne la cohérence des personnages de MidJourney ?

Image IA de MidJourney

Comme toutes les fonctionnalités de MidJourney, la cohérence des caractères fonctionne en ajoutant un code à la fin de l'invite, dans ce cas —cref et l'URL de l'image.

Cela fonctionne mieux en utilisant des images MidJourney comme source plutôt qu'une photographie ou un dessin réalisé en dehors du générateur d'images AI, bien que vous puissiez toujours utiliser d'autres images.

Vous pouvez également appliquer la balise –cw suivie d'un nombre compris entre 1 et 100 à la fin de l'invite après le –cref pour définir à quelle distance de l'image source MidJourney doit rester.

Vous pouvez également ajouter plusieurs personnages à une scène en utilisant un deuxième ou un troisième –cref avec les URL de chaque image source. Si vous réglez le –cw très haut, il prendra en compte tout, y compris les vêtements, le visage et les cheveux. Si vous le réglez bas, il se concentrera simplement sur la copie du visage afin que vous puissiez changer de tenue.

Dans quelle mesure la cohérence des personnages de MidJourney fonctionne-t-elle ?

Image IA de MidJourney

J'ai décidé de l'essayer sur un personnage que j'avais créé pour un précédent projet d'effets sonores d'IA appelé Jack Sloane, un détective privé de la vieille école du milieu de la quarantaine.

Pour la plupart, il a gardé la cohérence, portant son air renfrogné et son visage patiné à travers chaque génération, gardant même sa tenue avec chapeau et manteau.

Pour les premiers tests, je l'ai gardé dans son bureau, juste en changeant quelques éléments subtils. J'ai ensuite abaissé la valeur –cw à 40 et modifié l'invite pour le mettre dans une tenue légèrement différente.

Il lui enleva sa veste mais garda son chapeau et son air renfrogné. Cela a fonctionné suffisamment bien pour pouvoir être utilisé confortablement pour une nouvelle image dans un roman graphique ou un court métrage.

Finalement, je l'ai mis dans le couloir et j'ai eu un deuxième personnage, Lydia Carver — une femme à la recherche de son mari disparu — dans la scène avec Jack. Ça s'est bien passé mais pas bien. Deux des quatre images avaient deux Jack sans Lydia, une avait une mauvaise robe et une était à peu près correcte.

Quels sont les principaux cas d’usage ?

Dans l’ensemble, MidJourney a fait du bon travail avec la cohérence de son caractère. Cela nécessite des instructions minutieuses et l’obtention de la bonne image source, mais cela fonctionne.

Cela rapproche également l’ère de la narration générée, permettant un nouveau type de création de contenu sur une variété de supports.

Un écrivain brillant peut désormais visualiser ses créations plus facilement que jamais, un cinéaste peut créer des storyboards qui aideront à présenter ses créations aux investisseurs et d'autres peuvent transformer une idée aléatoire en réalité.