Alors que nos conversations avec ChatGPT continuaient à progresser, c'était toujours une question de temps avant que quelqu'un décide de faire progresser les PNJ en utilisant la puissance de l'intelligence artificielle.

Nvidia a montré à quel point sa plate-forme d'IA générative Avatar Cloud Engine (ACE) a progressé au CES 2024. Dans un bar cyberpunk, le NPC Nova a répondu à Seth Schneider, chef de produit senior d'ACE, lui demandant comment elle allait. Lorsque Schneider a demandé à boire au barman Jin, le personnage de l'IA lui en a immédiatement servi un.

La société vient de nous donner un aperçu de la façon dont nous allons bientôt interagir avec les personnages du jeu, comme si nous avions une conversation avec un ami.

D'autres qui ont eu l'occasion d'essayer la démo par eux-mêmes ont eu des conversations naturelles avec Nova et Jin sur différents sujets. Ils ont également demandé à Jin des ramen et aussi s'il pouvait atténuer les lumières du bar – Jin a géré les deux avec facilité.

La plate-forme fonctionne en capturant le discours d'un joueur, puis en le convertissant en texte pour qu'un grand modèle de langage (LLM) le traite afin de générer la réponse d'un PNJ. Le processus s'inverse ensuite pour que le joueur entende le personnage du jeu parler et voit également des mouvements de lèvres réalistes gérés par un modèle d'animation.

Pour cette démo, Nvida a collaboré avec Convai, une plateforme de création générative de PNJ d'IA. Convai permet aux développeurs de jeux d'attribuer une histoire à un personnage et de définir sa voix pour qu'il puisse participer à des conversations interactives. Les dernières fonctionnalités incluent l'interaction entre personnages en temps réel, la perception de la scène et les actions.

Comment ça fonctionne

Selon Nvidia, les modèles ACE utilisent une combinaison de ressources locales et cloud qui transforment les entrées des joueurs en une réponse dynamique du personnage. Les modèles incluent Riva Automatic Speech Recognition (ASR) pour transcrire la parole humaine, Riva Text To Speech (TTS) pour générer une parole audible, Audio2Face (A2F) pour générer des expressions faciales et des mouvements des lèvres et le NeMo LLM pour comprendre le texte du joueur et la voix transcrite et générer une réponse.

Dans son blog, Nvidia a déclaré que les conversations ouvertes avec les PNJ ouvrent un monde de possibilités d'interactivité dans les jeux. Il estime toutefois que de telles conversations devraient avoir des conséquences susceptibles de déboucher sur d’éventuelles actions. Cela signifie que les PNJ doivent être conscients du monde qui les entoure.

La dernière collaboration entre Nvidia et Convai a conduit à la création de nouvelles fonctionnalités, notamment la conscience spatiale des personnages, la possibilité pour les personnages d'agir en fonction d'une conversation et les personnages de jeu ayant la possibilité d'avoir des conversations non scriptées sans aucune interaction de la part d'un joueur.

Nvidia a déclaré qu'elle créait des avatars numériques utilisant les technologies ACE en collaboration avec les meilleurs développeurs de jeux, notamment Charisma.AI et NetEase Games, ce dernier ayant déjà investi 97 millions de dollars pour créer son MMO en ligne massivement multijoueur (MMO) alimenté par l'IA.