OpenAI a dévoilé un nouvel outil qui recrée la voix d'une personne avec seulement 15 secondes d'audio enregistré.

Baptisé Voice Engine, le modèle prend un seul clip de 15 secondes pour apprendre la voix de la personne et la façon dont elle parle. À partir de là, les utilisateurs peuvent saisir du texte pour lui faire dire ce qu'ils veulent avec des voix réalistes qui incluent de l'émotion. La société a déclaré avoir développé Voice Engine en 2022 et l'avoir utilisé dans des voix prédéfinies, mais c'est la première fois qu'il est question de l'utilisation de la voix réelle d'une personne. OpenAI a également reconnu dans un article de blog publié vendredi 29 mars les implications évidentes et potentiellement malveillantes.

« Nous adoptons une approche prudente et éclairée en vue d'une publication plus large en raison du potentiel d'utilisation abusive de la voix synthétique », a écrit OpenAI dans un article de blog. « Nous espérons entamer un dialogue sur le déploiement responsable des voix synthétiques et sur la manière dont la société peut s'adapter à ces nouvelles capacités. »

OpenAI a ajouté qu'en fonction du déroulement de ces conversations, il décidera comment – ​​ou même si – il publiera Voice Engine au public.

La société a écrit : « Nous prendrons une décision plus éclairée quant à l'opportunité et à la manière de déployer cette technologie à grande échelle. »

Les implications de Voice Engine sont énormes. Bien qu'il puisse être utilisé de diverses manières notables, comme enregistrer rapidement des présentations ou communiquer plus efficacement, il n'est pas difficile de capturer la voix de quelqu'un d'autre et de l'utiliser à des fins néfastes. En effet, bon nombre de ces types d’escroqueries existent déjà et sont utilisées pour inciter les gens à envoyer de l’argent et à partager des informations avec des fraudeurs.

OpenAI soutient que c'est avec ce risque qu'il est si important d'obtenir des commentaires. La société a déclaré qu'elle s'engageait avec des gouvernements, des sociétés de médias, des sociétés de divertissement et des établissements d'enseignement aux États-Unis et dans le monde pour discuter de Voice Engine. Ces parties testent actuellement Voice Engine et ont convenu de ne pas usurper l'identité d'autrui. Ils doivent également divulguer à toute personne écoutant l’audio que la voix est générée par l’IA. OpenAI a également ajouté un filigrane afin que les auditeurs sachent que la voix n'est pas authentique.

« Nous pensons que tout déploiement à grande échelle de technologie vocale synthétique devrait être accompagné d'expériences d'authentification vocale qui vérifient que l'orateur d'origine ajoute sciemment sa voix au service et d'une liste de voix interdites qui détecte et empêche la création de voix trop importantes. semblable à des personnalités », a déclaré la société.

Pour l’avenir, on ne sait pas ce qu’il adviendra de Voice Engine. Bien qu'il soit possible que cela soit finalement rendu public, OpenAI peut également déterminer que ce n'est pas dans le meilleur intérêt du public. Quoi qu'il en soit, a déclaré l'entreprise, il est clairement possible de se développer, et c'est clairement là. « Il est important que les gens du monde entier comprennent où va cette technologie », a déclaré la société, « que nous la déployions nous-mêmes à grande échelle ou non ».