Apple est en quelque sorte un retardataire sur la scène des grands modèles de langage (LLM), en retard sur Google, Microsoft et Meta dans la création de puissants outils d'IA, mais il semble rattraper rapidement son retard.

Plus tôt cette année, le PDG Tim Cook a déclaré aux investisseurs qu’il y aurait une annonce importante autour de l’IA qui constituerait une « avancée majeure ». Beaucoup pensent qu'il s'agira d'une nouvelle version de Siri alimentée par un LLM similaire au remplacement de l'Assistant de Google par Gemini.

Les chercheurs d'Apple viennent de révéler des détails sur ce qui pourrait être la base de cette Siri de nouvelle génération, et si les rumeurs sont vraies, elle pourrait fonctionner aux côtés de Gemini sur l'iPhone en offrant un choix.

Publié sous forme de document de recherche pré-imprimé, MM1 propose essentiellement une nouvelle méthode d'utilisation des données et des étiquettes générées par l'IA pour accélérer la formation de nouveaux modèles, y compris éventuellement Siri 2.0.

Qu’est-ce qu’Apple MM1 ?

Au cœur de MM1 se trouve une nouvelle méthode de formation de modèles multimodaux utilisant des données synthétiques comprenant des images et du texte.

Les chercheurs derrière MM1 affirment que leur nouvelle méthode accélère les performances et réduit le nombre d'invites de suivi pour obtenir le résultat souhaité.

Être capable d'améliorer une compréhension rapide et d'obtenir le résultat souhaité avec le moins d'interaction possible avec l'IA est parfait pour la technologie grand public, en particulier dans Siri, qui sera utilisé par un large groupe de personnes avec différents degrés de prouesses technologiques.

Les modèles atteignent des mesures de pré-formation de pointe et des performances compétitives sur des références multimodales après un réglage fin.

MM1 semble être une famille de modèles d’IA, dont le plus grand compte environ 30 milliards de paramètres. C'est nettement inférieur aux mille milliards de paramètres de GPT-4 et Claude 3 Opus, mais les chercheurs prétendent toujours qu'ils correspondent aux critères clés grâce à des améliorations d'efficacité.

« En augmentant leur recette, ils ont construit MM1, une famille de modèles multimodaux jusqu'à 30B de paramètres qui atteignent des mesures de pré-entraînement de pointe et des performances compétitives sur des références multimodales après un réglage fin », ont-ils écrit.

L'avancée significative concerne la vision, en particulier l'analyse des images et d'autres formes de contenu visuel et la capacité à comprendre le résultat. J'ai récemment testé l'efficacité de ChatGPT, Claude et Gemini dans cette tâche.

Comment fonctionne Apple MM1 ?

Pomme MM1

Le titre complet de l'article est Méthodes, analyses et perspectives de la pré-formation multimodale LLM. Il a été publié discrètement avec un minimum de fanfare et disponible en open source avec tous les détails des données de formation et des tests de référence.

Les chercheurs y soutiennent que la combinaison de différents types de données de formation et d’architectures de modèles – au lieu de s’appuyer sur un seul concept – peut conduire à des performances de pointe.

L'équipe a écrit qu'elle utilisait un mélange de données de légende d'image, de texte d'image et de texte uniquement et qu'un « ensemble de données diversifié couvrant des informations visuelles et linguistiques » était nécessaire pour obtenir cette performance.

Cela inclut le sous-titrage d'images, la réponse visuelle aux questions et la compréhension du langage naturel, par exemple pour les invites ponctuelles ou en quelques étapes pour obtenir le résultat souhaité.

« Grâce à une pré-formation à grande échelle, MM1 bénéficie de propriétés attrayantes telles qu'un apprentissage amélioré en contexte et un raisonnement multi-images, permettant une chaîne de pensée en quelques étapes », a expliqué l'équipe.

Qu’est-ce qui différencie l’Apple MM1 ?

MM1 utilise un type d'architecture différent de ses modèles, notamment des encodeurs à résolution d'image plus élevée, adopte une approche différente en matière de pré-entraînement et d'étiquetage et se concentre sur l'utilisation de ce mélange de données pour améliorer les performances globales à partir d'une seule invite.

Il utilise également un modèle mixte d'experts (MoE) pour évoluer tout en réduisant les exigences de traitement, ce qui laisse entrevoir son utilisation potentielle sur des appareils tels que les iPhones ou les ordinateurs portables, plutôt que de fonctionner dans le cloud.

Google a récemment exploité une architecture MoE dans son modèle Gemini 1.5 Pro avec une fenêtre contextuelle de plus d'un million de jetons. Cela lui a permis d’améliorer l’efficacité sur des données d’entrée importantes.

Apple MM1 alimentera-t-il Siri 2.0 ?

Apple pourrait amener Google Gemini sur iPhone

Bien que le document ne mentionne pas Siri ni aucun produit potentiel, l'accent mis sur les performances et l'efficacité, l'obtention de résultats solides avec un minimum d'incitations et la nécessité de capacités multimodales étendues suggèrent la direction qu'Apple prendra avec Siri à l'avenir.

Il est probable que de nombreuses fonctionnalités de tout Siri basé sur LLM devront fonctionner « sur l'appareil », en particulier en ce qui concerne le traitement des informations personnelles, en raison de la position de longue date d'Apple en matière de confidentialité.

Être capable de développer un modèle très puissant, capable d’apprendre des interactions avec les utilisateurs et suffisamment petit pour fonctionner sur un iPhone est un grand pas en avant.

Avec l'annonce récente selon laquelle Apple pourrait intégrer Gemini sur l'iPhone et les remords antérieurs selon lesquels la société est également en pourparlers avec le fabricant de ChatGPT OpenAI, il semble qu'Apple adopte une approche à multiples facettes pour réaliser le « big bang » promis par Cook aux investisseurs. en IA.