Google Deepmind a introduit les Gemini Robotics, de nouveaux modèles d'IA conçus pour apporter un raisonnement avancé et des capacités physiques aux robots.

Construit sur les bases de Gemini 2.0, les nouveaux modèles représentent un saut vers la création de robots qui peuvent comprendre et interagir avec le monde physique de manière auparavant confinée au domaine numérique.

Les nouveaux modèles, Gémeaux robotique et Gemini Robotics-er (Raisonnement incarné), visez à permettre aux robots d'effectuer une gamme plus large de tâches du monde réel en combinant des capacités avancées de vision, de langue et d'action.

Gemini Robotics vise à combler l'écart numérique-physique

Jusqu'à présent, des modèles d'IA comme Gemini ont excellé dans le raisonnement multimodal à travers le texte, les images, l'audio et la vidéo. Cependant, leurs capacités se sont largement limitées aux applications numériques.

Pour rendre les modèles d'IA vraiment utiles dans la vie quotidienne, ils doivent posséder un «raisonnement incarné» (c'est-à-dire la capacité de comprendre et de réagir au monde physique, tout comme les humains.)

Gemini Robotics relève ce défi en introduisant actions physiques En tant que nouvelle modalité de sortie, permettant au modèle de contrôler directement les robots. Pendant ce temps, Gemini Robotics-ER améliore la compréhension spatiale – permettant aux roboticiens d'intégrer les capacités de raisonnement du modèle dans leurs propres systèmes.

Ces modèles représentent une étape fondamentale vers une nouvelle génération de robots utiles. En combinant l'IA avancée avec l'action physique, Google DeepMind débloque le potentiel de robots pour aider dans une variété de paramètres du monde réel, des maisons aux lieux de travail.

Caractéristiques clés de Gemini Robotics

Gemini Robotics est conçu avec trois qualités de base à l'esprit: généralité, interactivitéet dextérité. Ces attributs garantissent que le modèle peut s'adapter à diverses situations, répondre aux environnements dynamiques et effectuer des tâches complexes avec précision.

Généralité

Gemini Robotics exploite les capacités de compréhension mondiale de Gemini 2.0 pour généraliser dans des situations nouvelles. Cela signifie que le modèle peut s'attaquer aux tâches qu'il n'a jamais rencontrées auparavant, à s'adapter à de nouveaux objets et à fonctionner dans des environnements inconnus. Selon Google Deepmind, Gemini Robotics que double les performances des modèles d'action visuelle à la pointe de la technologie sur les références de généralisation.

Interactivité

Pour fonctionner efficacement dans le monde réel, les robots doivent interagir de manière transparente avec les gens et leur environnement. Gemini Robotics excelle dans ce domaine, grâce à ses capacités avancées de compréhension du langage. Le modèle peut interpréter et répondre aux instructions du langage naturel, surveiller son environnement pour les changements et ajuster ses actions en conséquence.

Par exemple, si un objet se glisse à partir de la saisie d'un robot ou est déplacé par une personne, Gemini Robotics peut rapidement replandre et continuer la tâche. Ce niveau d'adaptabilité est crucial pour les applications du monde réel, où l'imprévisibilité est la norme.

Dextérité

De nombreuses tâches quotidiennes nécessitent une motricité fine qui a traditionnellement été difficile pour les robots. Gemini Robotics, cependant, démontre une dextérité remarquable, ce qui lui permet d'effectuer des tâches complexes et en plusieurs étapes telles que le pliage d'origami ou l'emballage d'une collation dans un sac Ziploc.

Des modes de réalisation multiples pour diverses applications

L'une des caractéristiques remarquables de Gemini Robotics est sa capacité à s'adapter à différents types de robots. Bien que le modèle ait été principalement formé à l'aide de données de la plate-forme robotique à bras bi-bras Aloha 2, il a également été testé avec succès sur d'autres plateformes, y compris les armes Franka utilisées dans les laboratoires académiques.

Google Deepmind collabore également avec Apptronik pour intégrer Gemini Robotics dans leur robot humanoïde, Apollo. Ce partenariat vise à développer des robots capables de accomplir des tâches du monde réel avec une efficacité et une sécurité sans précédent.

Gemini Robotics-ER est un modèle spécialement conçu pour améliorer les capacités de raisonnement spatial. Ce modèle permet aux roboticiens de connecter les capacités de raisonnement avancées de Gemini à leurs contrôleurs de bas niveau existants, permettant des tâches telles que la détection d'objets, la perception 3D et la manipulation précise.

Par exemple, lorsqu'on lui montre une tasse de café, Gemini Robotics-ER peut déterminer une prise à deux doigts appropriée pour le ramasser par la poignée et planifier une trajectoire sûre pour l'aborder. Le modèle atteint un taux de réussite 2x-3x par rapport à Gemini 2.0 dans les tâches de bout en bout, ce qui en fait un outil puissant pour les roboticiens.

Prioriser la sécurité et la responsabilité

Google Deepmind dit que la sécurité est une priorité absolue et a par la suite implémenté une approche en couches pour assurer la sécurité physique des robots et des personnes qui les entourent. Cela comprend l'intégration de mesures de sécurité classiques – telles que l'évitement des collisions et la limitation de la force – avec les capacités de raisonnement avancées de Gemini.

Pour faire progresser la recherche en matière de sécurité, Google Deepmind publie l'ensemble de données Asimov, une nouvelle ressource pour évaluer et améliorer la sécurité sémantique dans l'IA incarnée et la robotique. L'ensemble de données est inspiré par Isaac Asimov Trois lois de la robotique et vise à aider les chercheurs à développer des robots plus sûrs et plus alignés sur les valeurs humaines.

Google Deepmind travaille avec un groupe sélectionné de testeurs – y compris des robots agiles, des robots d'agilité, une dynamique de Boston et des outils enchantés – pour explorer les capacités de Gemini Robotics-ER. Google dit que ces collaborations aideront à affiner les modèles et à guider leur développement vers des applications réelles.

En combinant un raisonnement avancé avec l'action physique, Google Deepmind ouvre la voie à un avenir où les robots peuvent aider les humains dans un large éventail de tâches – des tâches ménagères aux applications industrielles.