Je viens d'essayer un nouvel outil d'IA de synthèse vocale qui clone votre voix en quelques secondes

OpenVoice est une nouvelle technologie d'intelligence artificielle de synthèse vocale qui peut cloner n'importe quelle voix à partir d'un échantillon de 30 secondes. Et il conserve la qualité tonale de cette voix originale tout en transformant votre texte écrit en audio de création orale.

La synthèse vocale a fait partie de ma liste des outils d'IA les plus importants de l'année dernière. Il s’agit d’une nouvelle approche de cette approche, accélérant le temps de copie d’une voix.

Même s'il était capable de créer un clone de ma voix presque instantanément, le résultat me faisait paraître américain plutôt que mon anglais natif. Il fait cependant du très bon travail si vous commencez avec un accent américain neutre.

Dans l’un des exemples de clips, il faisait référence à un échantillon d’Elon Musk parlant. Lorsque vous tapez un texte aléatoire pour que sa voix clonée se répète, les sons sont plus doux, moins sud-africains et plus sud-californiens. Vous pouvez l’entendre par vous-même plus loin dans l’article.

Comment fonctionne OpenVoice ?

L'OpenVoice multilingue de MyShell a été formé sur des heures d'échantillons vocaux. Cela lui permet d'identifier des modèles et d'accélérer le temps nécessaire pour cloner une nouvelle voix.

Il peut reproduire la couleur sonore du haut-parleur de référence et, contrairement à d'autres outils comme ElevenLabs, permet à l'utilisateur de contrôler l'émotion, l'accent, le rythme, les pauses et l'intonation.

OpenVoice est déjà utilisé depuis mai pour fournir le clonage vocal de l'outil MyShell AI, utilisé par des dizaines de millions d'utilisateurs dans le monde pour créer des chatbots IA personnels.

Comment sonne OpenVoice ?

Je ne l'ai essayé qu'à travers les démos sur Lepton et HuggingFace, ce n'est donc pas un véritable essai car cela nécessiterait de l'installer et de l'exécuter sur ma propre machine. Cependant, à partir de ce court échantillon, le changement d’émotion fonctionne très bien, tout comme le clonage de voix basées aux États-Unis.

Il a du mal avec les accents forts, bien que cela puisse être dû aux limites de la démo plutôt qu'au modèle dans son ensemble. Cependant, les échantillons fournis sur le site Web du projet semblent également se concentrer fortement sur les accents américains.

Qu’est-ce qui distingue OpenVoice ?

La référence en matière de clonage de voix à partir d’un échantillon court, avec des résultats sonores précis jusqu’à présent, est ElevenLabs. La société permet également la synthèse vocale pour améliorer le réalisme. Cependant, il s’agit d’une option commerciale et quelque peu coûteuse pour les expérimentateurs et les amateurs.

OpenVoice est disponible pour être installé et exécuté localement. Il est également capable d'un plus grand degré de réalisme, ou du moins de plus d'animation dans la voix générée. Cela pourrait s'avérer inestimable pour quelqu'un qui réalise un dessin animé ou une pièce de radio dans le cadre d'un projet scolaire et qui n'a pas les moyens d'avoir des acteurs.

Plus l’IA vocale devient réaliste, en particulier lorsqu’une voix peut être clonée en quelques secondes, plus les syndicats d’acteurs seront en alerte. Le récent SAG-AFTRA portait en partie sur l’utilisation de l’IA pour priver les créatifs de travail.

Je pense que nous assisterons à une tendance à protéger davantage d’aspects d’une identité, notamment le ton vocal, le mouvement et la performance, à mesure que l’IA reproduit de plus en plus ces facteurs.