L’intelligence artificielle a parcouru un long chemin en peu de temps. Même si la technologie sous-jacente existe depuis des décennies, nous avons assisté ces dernières années à des avancées successives dans le niveau d’intelligence démontré par l’IA.

À la pointe de l'évolution de l'IA se trouve OpenAI, avec des modèles comme GPT-4 et des outils comme ChatGPT, mais ils veulent maintenant donner à ces modèles des jambes sous la forme de robots de la start-up Figure.

Le laboratoire d'IA de Sam Altman a investi des millions dans Figure, une entreprise de robotique IA qui construit des robots humanoïdes à usage général. Il vaut désormais 2,6 milliards de dollars et bénéficie d’investissements de Microsoft, OpenAI, Nvidia, Intel et Jeff Bezos – pas d’Amazon, juste de Bezos.

Qu’est-ce que cela signifie pour l’IA et la robotique ?

Depuis quelque temps, les domaines de l’IA et des robots sont reliés par un fil invisible. Il est clair qu’ils sont censés constituer un seul domaine, mais ils se sont développés indépendamment les uns des autres.

Au début d'OpenAI, l'entreprise a tenté de créer une division robotique, mais a constaté que le matériel et les logiciels étaient encore deux entités distinctes : l'IA n'était pas prête à s'intéresser à la machine. Cela a changé au cours de la dernière année avec les améliorations rapides de la multimodalité.

« Nous avons toujours prévu de revenir à la robotique et nous voyons avec Figure une voie pour explorer ce que les robots humanoïdes peuvent réaliser lorsqu'ils sont alimentés par des modèles multimodaux hautement performants », a déclaré Peter Welinder, vice-président des produits et des partenariats chez OpenAI.

Welinder a ajouté : « Nous sommes époustouflés par les progrès réalisés par Figure à ce jour et nous sommes impatients de travailler ensemble pour ouvrir de nouvelles possibilités sur la façon dont les robots peuvent aider dans la vie quotidienne. »

La multimodalité signifie essentiellement que les modèles d’IA peuvent comprendre et interagir avec plus que du simple texte. Gemini de Google et GPT-4v sont des modèles multimodaux dans le sens où ils peuvent accepter des entrées sous forme de texte, de code, d'images, de vidéo ou de parole et les interpréter de la même manière.

Ceci est vital si vous voulez pouvoir laisser un robot faire son propre travail sans que les humains aient à écrire chaque tâche qu'il doit effectuer avant d'effectuer cette tâche.

Qu’est-ce que cela signifie pour Figure ?

Figures robots IA

Figure AI a été fondée en 2022 dans le but de disposer de robots capables de travailler dans les secteurs de la fabrication, du transport maritime, de la logistique, de l'entreposage et même du commerce de détail, où « les pénuries de main-d'œuvre sont les plus graves ».

Bien qu'il existe des robots disponibles pour des tâches spécifiques dans chacune de ces industries, Figure emprunte la voie humanoïde en créant des machines capables de s'adapter selon les besoins à différentes situations.

Avec une technologie à ce niveau, il s’agit de deux choses : l’argent et le calcul. Le cycle de financement porte sa valeur à plus de 2 milliards de dollars et le partenariat avec OpenAI permet d'adapter des modèles déjà formés et utilisés pour fournir l'esprit à la machine.

L'objectif est que Figure 01, leur premier androïde, soit capable d'effectuer une série de « tâches quotidiennes de manière autonome » et c'est là que l'esprit de l'IA entre en jeu.

Nous avons déjà vu des expériences de chercheurs universitaires, comme Alter3, utilisant le GPT-4 d'OpenAI pour aider un robot à apprendre les poses et les mouvements à partir d'une simple invite textuelle. La prochaine étape est une autonomie totale.

Pourquoi l’IA en robotique est-elle si importante ?

Logo ChatGPT sur le téléphone devant un robot pensant

Pouvoir demander à un robot de déterminer lui-même ce qu'il doit faire directement depuis le tapis de l'usine – ou du moins après une formation minimale – change la donne pour l'industrie.

Google dispose de divisions de recherche qui travaillent à l'intégration de l'IA dans la machine pour permettre au robot d'apprendre les tâches quotidiennes et d'exécuter des fonctions qu'il n'a jamais vues auparavant en analysant une scène.

Cela dépend en grande partie des progrès de la technologie de vision par ordinateur, en particulier de la vision de l'IA, où le modèle sous-jacent peut prendre une vue du monde réel à partir d'une caméra, examiner la situation et porter un jugement sur ce qui est requis.

Nous sommes époustouflés par les progrès réalisés par Figure à ce jour et nous sommes impatients de travailler ensemble pour ouvrir de nouvelles possibilités sur la manière dont les robots peuvent aider dans la vie quotidienne.

« Notre vision chez Figure est d'introduire les robots humanoïdes dans les opérations commerciales dès que possible », a déclaré Brett Adcock, fondateur et PDG de Figure. Il a déclaré que le nouvel investissement garantit que l'entreprise est « bien préparée à introduire l'IA incarnée dans le monde pour avoir un impact transformateur sur l’humanité.

L'IA incarnée est un terme que nous verrons, je pense, beaucoup plus souvent. Fondamentalement, il s'agit de ChatGPT avec des jambes, ou de Google Gemini mais avec la possibilité de parler dans le monde réel et d'avoir une conversation.

Si vous n'étiez pas préoccupé par l'IA auparavant, imaginez ce que ce sera lorsque ChatGPT pourra s'approcher de vous pour discuter et vous demander pourquoi vous n'avez jamais dit merci pour ces photos de chiens qu'il a prises.