Apple a travaillé avec des chercheurs de l'UC Santa Barbara pour développer un modèle d'IA capable d'éditer des images en fonction de vos instructions, et le résultat est désormais disponible pour que quiconque puisse l'essayer en tant que logiciel open source.

Ce nouveau modèle d'IA utilise de grands modèles de langage multimodaux (alias MLLM) pour traduire des requêtes écrites en langage naturel (comme « rendre le cadre rouge ») en instructions exploitables, puis agir sur celles-ci pour générer et modifier des images. Le nouveau modèle d'édition d'images guidées MLLM (ou MGIE en abrégé) est un logiciel open source disponible en téléchargement via GitHub, et il est également disponible sous forme de démo Web sur la plateforme Hugging Spaces que vous pouvez consulter vous-même.

Cette démo vous permet de générer une image via une invite de texte ou d'en télécharger une vous-même, puis de demander au modèle d'y apporter des modifications en utilisant le langage naturel. Le modèle MGIE génère ensuite l'image modifiée et vous la présente pour des modifications ultérieures.

Cela pourrait être un gros problème, non seulement parce qu'Apple est impliqué, mais aussi parce que ce nouveau modèle d'IA pourrait être un outil plus performant et plus efficace que les éditeurs d'images IA existants.

C'est potentiellement énorme, car dans la Silicon Valley, la course est lancée pour créer de meilleurs éditeurs de photos et de vidéos utilisant des outils d'IA, avec des titans comme Adobe mettant l'IA générative dans Photoshop et Meta confirmant que l'édition de vidéos et d'images par l'IA arrive sur Instagram et Facebook.

Jusqu'à présent, Apple a gardé un profil relativement bas dans la course aux armements en matière d'IA, mais la société aurait intensifié ses acquisitions et son recrutement en matière d'IA et a annoncé de grands projets d'IA avant le lancement de Vision Pro. Il y a donc de fortes chances que vous en entendiez davantage sur L'IA sortira de Cupertino en 2024, en particulier lorsqu'il sera temps de présenter en avant-première iOS 18 lors de la conférence mondiale des développeurs de cette année.

Perspectives

Les chercheurs d'Apple et leurs collègues de l'UCSB s'associent pour publier ce modèle MGIE sous licence open source, ce qui constitue une avancée significative dans la recherche sur l'IA, mais il n'est pas encore clair si cette avancée aura un impact sur les produits Apple en 2024.

Je dis cela parce que le modèle MGIE semble avoir été développé à l'aide de DeepSpeed, une suite de bibliothèques et d'outils publiés par Microsoft pour aider les développeurs à former et à optimiser les modèles d'IA. DeepSpeed ​​ne fonctionne pas bien avec le silicium Apple, il semble donc peu probable que le modèle MGIE tel qu'il existe actuellement puisse fonctionner localement sur du matériel Apple.

Mais cette recherche laisse entrevoir la direction que prendront les recherches de Cupertino sur l’IA. Apple ne se vante pas publiquement de l'IA de la même manière que des entreprises comme Google et Microsoft, mais le fabricant de MacBook a discrètement intégré dans ses appareils depuis des années des technologies que nous regroupons désormais sous le parapluie « IA ». Le « moteur neuronal » intégré à chaque tranche de silicium Apple est optimisé pour les travaux d'IA tels que le flou vidéo ou l'édition d'images, et Apple l'utilise pour vous aider à améliorer automatiquement vos photos en un seul clic dès l'iPhone 11.

Ainsi, même si vous ne verrez probablement pas de sitôt l'outil d'édition d'images amélioré d'Apple lancé en tant qu'application autonome sur l'App Store, j'espère que vous verrez les fruits de cette recherche apparaître sous forme de mises à niveau des outils d'édition d'images intégrés de les meilleurs iPhones, les meilleurs iPads et les meilleurs MacBooks dans les années à venir.