ChatGPT vient de lancer Images 2.0, et il corrige enfin le texte déformé

OpenAI a dévoilé ChatGPT Images 2.0, une refonte majeure de ses capacités de génération d'images qui pourrait rendre les visuels d'IA beaucoup plus utiles pour les concepteurs, les spécialistes du marketing et les utilisateurs quotidiens.

Alors que les outils d'image d'IA antérieurs généraient souvent des résultats présentant des défauts frustrants tels qu'un texte déformé, des mises en page médiocres et un suivi d'invites vagues, OpenAI promet qu'Images 2.0 est différent.

Selon OpenAI, le nouveau modèle offre un meilleur suivi des instructions, un rendu du texte plus net, une prise en charge multilingue améliorée et un meilleur contrôle sur la composition, les proportions et la cohérence visuelle. En bref : moins « d’expérience artistique en IA », plus « d’outil de conception utilisable ».

L'article continue ci-dessous

Pourquoi cette mise à niveau est importante

Pour de nombreux concepteurs, il est difficile de faire confiance aux outils d’image d’IA pour un travail réel. Désormais, les utilisateurs peuvent potentiellement créer des diapositives de présentation, des graphiques de réseaux sociaux, des bannières, des affiches et des maquettes de produits directement dans ChatGPT.

OpenAI affirme qu'Images 2.0 change cela en améliorant les problèmes exacts dont les professionnels de la création se plaignent le plus :

Meilleur petit texte et typographie
Placement d'objet plus précis
Des mises en page plus propres avec des espaces et une hiérarchie
Gestion renforcée des affiches, des explicatifs et des éléments de l'interface utilisateur
Des styles plus réalistes et une cohérence plus nette
Prise en charge de formats d'image aussi larges que 3:1 et hauts jusqu'à 1:3

Les concepteurs pourraient réellement s'en soucier cette fois

Le changement le plus important pourrait être l’intention. Au lieu de se concentrer uniquement sur l'art surréaliste ou les images inédites, OpenAI positionne Images 2.0 comme un système de conception stratégique, ce qui peut aider à faire passer un projet de l'idée approximative à l'actif fini.

La société affirme que le modèle peut raisonner à travers des mises en page, utiliser des informations Web lorsqu'un modèle de réflexion est sélectionné et même générer jusqu'à huit images associées à la fois avec continuité entre les personnages ou les objets.

Cela pourrait être utile pour les variantes de campagnes publicitaires, les storyboards, les ressources de médias sociaux, les séquences de bandes dessinées, les lancements de produits et les supports marketing multilingues.

En fait, l’une des améliorations les plus notables est la prise en charge du rendu de texte dans une langue autre que l’anglais. OpenAI affirme qu'Images 2.0 réalise des progrès significatifs en japonais, coréen, chinois, hindi et bengali, aidant à générer des visuels où la langue fait partie de la conception plutôt qu'après coup.

Conclusion

OpenAI indique que ChatGPT Images 2.0 est désormais déployé pour tous les utilisateurs de ChatGPT et du Codex. Les sorties avancées basées sur des modèles de réflexion sont réservées aux utilisateurs Plus, Pro, Business et Enterprise. Le modèle gpt-image-2 sous-jacent est également disponible via l'API pour les développeurs.

Pour la première fois, cette mise à niveau d'image ChatGPT donne l'impression qu'il s'agit moins d'images devenues virales que de travail réel. Les utilisateurs pourraient constater qu'Images 2.0 est la version qui prend légitimement en charge le flux de travail créatif.