Magma: un aperçu de la façon dont l'IA multimodale transformera la robotique

Le magma nouvellement annoncé est une AI multimodale permettant des tâches agetiques allant de la navigation de l'interface utilisateur à la manipulation de la robotique.

Magma – le travail des chercheurs de Microsoft, de l'Université du Maryland, de l'Université du Wisconsin-Madison, de Kaisst et de l'Université de Washington – élargit les capacités des modèles traditionnels de la vision-langue (VL) en introduisant des fonctionnalités révolutionnaires pour la planification d'action, la spatiale spatiale (VL) raisonnement et compréhension multimodale.

Le modèle de fondation multimodale de nouvelle génération conserve non seulement l'intelligence verbale de ses prédécesseurs VL, mais introduit une intelligence spatiale avancée. Il est capable de comprendre les relations visuelles-spatiales, de planifier des actions et de les exécuter avec précision.

Qu'il s'agisse de naviguer dans les interfaces numériques ou les bras robotiques commandants, le magma peut accomplir des tâches qui n'étaient auparavant réalisables que par le biais de modèles d'IA spécialisés et spécifiques au domaine.

Selon l'équipe de recherche, le développement de Magma a été guidé par deux objectifs principaux:

Capacités unifiées dans les mondes numériques et physiques: Magma intègre des capacités pour des environnements numériques comme la navigation Web et mobile avec des tâches robotiques, qui tombent carrément dans le domaine physique.
Intelligence verbale, spatiale et temporelle combinée: Le modèle est conçu pour analyser les images, les vidéos et les entrées de texte tout en convertissant des objectifs de niveau supérieur en plans d'action concrète.

Techniques de formation innovantes

Magma atteint ses capacités avancées grâce à un nouveau cadre de pré-formation sous-tendu par deux paradigmes de base: Set-of-Mark (SOM) et Trace-of-Mark (Tom). Ces méthodes se concentrent efficacement sur la mise en œuvre des actions et la planification des mouvements futurs en fonction des indices visuels et temporels.

Ensemble de marques (SOM): mise à la terre d'action

SOM est essentiel pour la mise à la terre d'action dans les images statiques. Il s'agit d'étiqueter des objets visuels exploitables, tels que des boutons cliquables dans des captures d'écran de l'interface utilisateur ou des bras robotiques dans des tâches de manipulation, avec des marqueurs numériques. Cela permet à Magma d'identifier et de cibler avec précision les éléments visuels pour l'action, que ce soit dans les interfaces utilisateur ou les paramètres de manipulation physique.

Trace-of-Mark (Tom): planification de l'action

Pour les environnements dynamiques, Tom forme le modèle pour reconnaître la dynamique vidéo temporelle, anticiper les états futurs et créer des plans d'action. En suivant les mouvements d'objets, tels que la trajectoire d'un bras robotique, Tom capture les dépendances à long terme dans les données vidéo sans être distrait par des changements ambiants étranges.

Les chercheurs notent que cette méthode est beaucoup plus efficace que les approches de prédiction traditionnelles du trame suivant, car elle utilise moins de jetons tout en conservant la capacité de prévoir des horizons temporels étendus.

Données et méthodologie de pré-formation

Pour équiper le magma de ses prouesses multimodales, les chercheurs ont organisé un ensemble de données de formation vaste et hétérogène combinant diverses modalités:

Vidéos pédagogiques
Ensembles de données de manipulation de la robotique
Données de navigation de l'interface utilisateur
Ensembles de données de compréhension multimodale existants

La pré-entraînement impliquait à la fois des données agentiques annotées et des données non marquées «dans la nature», y compris le contenu vidéo non structuré. Pour garantir la supervision spécifique à l'action, le mouvement de la caméra a été méticuleusement supprimé des vidéos et la formation du modèle axée sur des interactions significatives, telles que la manipulation d'objets et le clic de bouton.

Le pipeline de pré-formation unifie les modalités de texte, d'image et d'action dans un cadre cohésif, jetant les bases de diverses applications en aval.

IA multimodale de pointe pour la robotique et au-delà

La polyvalence et les performances de Magma ont été validées par des évaluations étendues de zéro et de réglage fin dans plusieurs catégories:

Manipulation de la robotique

Dans les opérations robotiques de pick-and-place et les tâches de manipulation d'objets souples, évaluées sur des plates-formes telles que la série Widowx et le libéro, Magma s'est imposé comme le modèle de pointe.

Même dans les tâches hors distribution (scénarios non couverts pendant la formation), Magma a démontré des capacités de généralisation robustes, dépassant OpenVLA et d'autres modèles d'IA spécifiques à la robotique.

Les vidéos publiées par l'équipe présentent le magma en action sur des tâches du monde réel, tels que placer des objets comme des champignons dans un pot ou un tissu poussant en douceur sur une surface.

Navigation UI

Dans les tâches telles que l'interaction interne et mobile, Magma a démontré une précision exceptionnelle, même sans réglage fin spécifique au domaine. Par exemple, le modèle pourrait exécuter de manière autonome une séquence d'actions d'interface utilisateur comme la recherche d'informations météorologiques et l'activation du mode de vol – le type de tâches que les humains effectuent quotidiennement.

Lorsqu'il est finement réglé sur des ensembles de données comme Mind2Web et AITW, Magma a obtenu des résultats principaux sur les repères de navigation numérique, surpassant les modèles antérieurs spécifiques au domaine.

Raisonnement spatial

Le magma a présenté un fort raisonnement spatial, surpassant d'autres modèles sur des évaluations complexes, y compris le GPT-4. Sa capacité à comprendre les relations verbales, spatiales et temporelles à travers les entrées multimodales démontre des progrès profonds dans les capacités générales de renseignement.

Question vidéo Réponction (vidéo QA)

Même avec l'accès à un plus petit volume de données de réglage de l'instruction vidéo, Magma a excellé dans des tâches liées à la vidéo, telles que l'interprétation de réponses et d'interprétation temporelle. Il a dépassé les approches de pointe comme Video-Lama2 sur la plupart des références, prouvant son pouvoir de généralisation.

Implications pour l'IA multimodale

Le magma représente un saut fondamental dans le développement de modèles de fondation pour les agents d'IA multimodaux. Sa capacité à percevoir, planifier et agir marque un changement dans la convivialité de l'IA – du fait d'être réactif et unique à proactif et polyvalent entre les domaines.

En intégrant le raisonnement verbal et spatial-temporel, le magma comble l'écart entre la compréhension et l'exécution des actions, ce qui le rapproche des capacités de type humain.

Alors que le magma est un saut impressionnant en avant, les chercheurs reconnaissent plusieurs limites. Étant principalement conçu pour la recherche, le modèle n'est pas optimisé pour chaque application en aval et peut présenter des biais ou des inexactitudes dans des scénarios à haut risque.

Il est conseillé aux développeurs de travailler avec des versions finement réglées de l'évaluer pour la sécurité, l'équité et l'adhésion à la conformité réglementaire.

Dans l'attente, l'équipe envisage de tirer parti du cadre du magma pour des applications comme:

Sous-titrage d'image / vidéo
Question avancée répondant
Systèmes de navigation complexes
Automatisation des tâches en robotique

En affinant et en élargissant son ensemble de données et en pré-formation des objectifs, ils visent à continuer à améliorer l'intelligence multimodale et agentique de Magma.

Le magma est sans aucun doute une étape importante, démontrant ce qui est possible lorsque les modèles fondamentaux sont étendus pour unir des domaines numériques et physiques.

De contrôler les robots dans les usines à l'automatisation des flux de travail numériques, le magma est un plan prometteur pour un avenir où l'IA peut basculer de manière transparente entre les écrans, les caméras et la robotique pour résoudre les défis du monde réel.