Vous voudrez peut-être vous asseoir avant de lire celui-ci, vous pouvez peut-être également demander à ChatGPT de vous remettre également un verre d'eau pendant que vous y êtes.

Une startup d'IA relativement nouvelle vient de mettre l'intelligence artificielle d'OpenAI dans le corps d'un robot et le résultat est à peu près ce à quoi vous vous attendez (moins le chaos et la destruction si vous êtes plutôt du genre un verre d'eau à moitié vide). de personne).

Cette nouvelle technologie est développée par Figure, une société de robotique IA d'une valeur de 2,6 milliards de dollars en partenariat avec OpenAI. Sa dernière innovation est Figure 01, un robot dont l'entreprise a fait la démonstration dans une vidéo impressionnante.

Les images et le discours sont contextualisés

À en juger uniquement par les talents d'acteur, il est difficile de dire qui est le véritable humain, mais nous supposons que la figure 01 est la figure brillante qui fait tout le travail.

Les invites textuelles appartiennent déjà au passé, car la figure 01 est capable d'avoir une conversation vocale en temps réel avec vous – et cela ressemble exactement à des conversations avec l'option OpenAI ChatGPT Voice dans l'application.

Les images sont capturées à partir de caméras embarquées pour fournir au robot un contexte visuel de sorte que lorsque l'humain en face de lui mentionne qu'il a faim, la figure 01 identifie une pomme à portée de main et la lui remet. Nous passons de « Puis-je avoir quelque chose à manger ? » à la pomme livré avec succès à la main humaine en 10 secondes environ.

Tenir une conversation complexe

Comme pour nos discussions avec ChatGPT, la figure 01 peut gérer des conversations tout aussi complexes. Il peut décrire ce qu’il voit, planifier des actions futures, réfléchir sur sa mémoire et expliquer verbalement son raisonnement.

Puisque la figure 01 peut replacer les choses dans leur contexte, nous devrions peut-être lui demander à quel type de scénario nous devons nous préparer. Si nous touchons au fruit défendu ou si nous sommes à l’aube d’une nouvelle ère scientifique et technologique.

En coulisses, les caméras du robot capturent des images qui sont ensuite contextualisées. Les microphones captent la parole qui est ensuite transcrite en texte et introduite dans un grand modèle multimodal formé par OpenAI, capable de comprendre à la fois les images et le texte.

Ainsi, lorsqu'on a demandé à la Figure 01 pourquoi elle avait remis la pomme, elle a immédiatement répondu : « Je vous ai donné la pomme parce que c'est le seul article comestible que je pouvais vous fournir sur la table. »

Les humains ont eu une histoire intéressante avec les pommes. Ils ont causé pas mal de problèmes dans le jardin d’Eden, mais ont ensuite inspiré Isaac Newton à développer sa théorie gravitationnelle.

Puisque la figure 01 peut replacer les choses dans leur contexte, nous devrions peut-être lui demander à quel type de scénario nous devons nous préparer. Si nous touchons au fruit défendu ou si nous sommes à l’aube d’une nouvelle ère scientifique et technologique.