Nvidia révèle le « couteau suisse » des outils audio IA : Fugatto

Le fabricant de puces informatiques de grande puissance Nvidia a dévoilé lundi un nouveau modèle d'IA développé par ses chercheurs, capable de générer ou de transformer n'importe quel mélange de musique, de voix et de sons décrits avec des invites en utilisant n'importe quelle combinaison de fichiers texte et audio.

Le nouveau modèle d'IA appelé Fugatto — pour Foundational Generative Audio Transformer Opus — peut créer un extrait de musique basé sur une invite de texte, supprimer ou ajouter des instruments d'une chanson existante, modifier l'accent ou l'émotion d'une voix et même produire des sons jamais entendus auparavant. .

Selon Nvidia, en prenant en charge de nombreuses tâches de génération et de transformation audio, Fugatto est le premier modèle d'IA génératif fondamental qui présente des propriétés émergentes – des capacités qui découlent de l'interaction de ses diverses capacités entraînées – et la capacité de combiner des instructions de forme libre.

« Nous voulions créer un modèle qui comprend et génère du son comme le font les humains », a déclaré Rafael Valle, responsable de la recherche audio appliquée chez Nvidia, dans un communiqué.

« Fugatto est notre premier pas vers un avenir où l'apprentissage multitâche non supervisé en matière de synthèse et de transformation audio émerge à l'échelle des données et des modèles », a-t-il ajouté.

Nvidia a noté que le modèle est capable de gérer des tâches pour lesquelles il n'a pas été pré-entraîné, ainsi que de générer des sons qui changent avec le temps, comme l'effet Doppler du tonnerre lorsqu'un orage traverse une zone.

La société a ajouté que contrairement à la plupart des modèles, qui ne peuvent recréer que les données d'entraînement auxquelles ils ont été exposés, Fugatto permet aux utilisateurs de créer des paysages sonores jamais vus auparavant, comme un orage qui se lève à l'aube avec le chant des oiseaux.

Modèle d'IA révolutionnaire pour la transformation audio

« L'introduction de Fugatto par Nvidia marque une avancée significative dans la technologie audio basée sur l'IA », a observé Kaveh Vahdat, fondateur et président de RiseOpp, une société nationale de services CMO basée à San Francisco.

« Contrairement aux modèles existants spécialisés dans des tâches spécifiques, telles que la composition musicale, la synthèse vocale ou la génération d'effets sonores, Fugatto offre un cadre unifié capable de gérer un large éventail de fonctions liées à l'audio », a-t-il déclaré à Technews.fr. «Cette polyvalence le positionne comme un outil complet de synthèse et de transformation audio.»

Obtenez des informations grâce à l'indice d'effort client

Vahdat a expliqué que Fugatto se distingue par sa capacité à générer et transformer de l'audio basé à la fois sur des instructions textuelles et sur des entrées audio facultatives. « Cette approche à double entrée permet aux utilisateurs de créer des sorties audio complexes qui mélangent de manière transparente divers éléments, comme la combinaison de la mélodie d'un saxophone avec le timbre d'un chat qui miaule », a-t-il déclaré.

De plus, a-t-il poursuivi, la capacité de Fugatto à interpoler entre les instructions permet un contrôle nuancé sur des attributs tels que l'accent et l'émotion dans la synthèse vocale, offrant un niveau de personnalisation que l'on ne trouve pas couramment dans les outils audio d'IA actuels.

« Fugatto est une étape extraordinaire vers une IA capable de gérer plusieurs modalités simultanément », a ajouté Benjamin Lee, professeur d'ingénierie à l'Université de Pennsylvanie.

« L'utilisation conjointe d'entrées texte et audio peut produire des modèles bien plus efficaces que l'utilisation de texte seul », a-t-il déclaré à Technews.fr. « La technologie est intéressante car, au-delà du seul texte, elle élargit les volumes de données d'entraînement et les capacités des modèles d'IA génératifs. »

Nvidia à son meilleur

Mark N. Vena, président et analyste principal chez SmartTech Research à Las Vegas, a affirmé que Fugatto représente Nvidia à son meilleur.

« La technologie introduit des capacités avancées dans le traitement audio de l'IA en permettant la transformation de l'audio existant sous des formes entièrement nouvelles », a-t-il déclaré à Technews.fr. « Cela inclut la conversion d'une mélodie de piano en une ligne vocale humaine ou la modification de l'accent et du ton émotionnel des mots prononcés, offrant ainsi une flexibilité sans précédent dans la manipulation audio. »

« Contrairement aux outils audio d'IA existants, Fugatto peut générer de nouveaux sons à partir de descriptions textuelles, comme faire sonner une trompette comme un chien qui aboie », a-t-il déclaré. « Ces fonctionnalités offrent aux créateurs de musique, de films et de jeux des outils innovants pour la conception sonore et l'édition audio. »

Fugatto traite l'audio de manière holistique – couvrant les effets sonores, la musique, la voix, pratiquement tout type d'audio, y compris les sons qui n'ont jamais été entendus auparavant – et précisément, a ajouté Ross Rubin, analyste principal chez Reticle Research, une société de conseil en technologie grand public de New York. La ville de York.

Il a cité l’exemple de Suno, un service qui utilise l’IA pour générer des chansons. « Ils viennent de sortir une nouvelle version qui apporte des améliorations dans la façon dont les voix humaines générées sonnent et d'autres choses, mais elle ne permet pas le genre de changements précis et créatifs que Fugatto permet, comme l'ajout de nouveaux instruments à un mix, le changement d'ambiance d'une ambiance joyeuse à une autre. trop triste, ou déplacer une chanson d'une tonalité mineure à une tonalité majeure », a-t-il déclaré à Technews.fr.

« Sa compréhension du monde de l'audio et la flexibilité qu'il offre vont au-delà des moteurs spécifiques aux masques que nous avons vus pour des choses comme générer une voix humaine ou générer une chanson », a-t-il déclaré.

Ouvre la porte aux créatifs

Vahdat a souligné que Fugatto peut être utile à la fois dans la publicité et dans l'apprentissage des langues. Les agences peuvent créer du contenu audio personnalisé qui correspond à l'identité de la marque, y compris des voix off avec des accents spécifiques ou des tons émotionnels, a-t-il noté.

Parallèlement, dans l’apprentissage des langues, les plateformes éducatives pourront développer du matériel audio personnalisé, comme des dialogues avec divers accents ou contextes émotionnels, pour faciliter l’acquisition de la langue.

« La technologie Fugatto ouvre les portes à un large éventail d'applications dans les industries créatives », a affirmé Vena. « Les cinéastes et les développeurs de jeux peuvent l'utiliser pour créer des paysages sonores uniques, par exemple en transformant les sons du quotidien en effets fantastiques ou immersifs », a-t-il déclaré. « Il offre également un potentiel pour des expériences audio personnalisées dans la réalité virtuelle, les technologies d'assistance et l'éducation, en adaptant les sons aux tons émotionnels spécifiques ou aux préférences de l'utilisateur. »

Guide de planification budgétaire 2025 : Expérience client

« Dans la production musicale », a-t-il ajouté, « cela peut transformer des instruments ou des styles vocaux pour explorer des compositions innovantes ».

Des développements supplémentaires peuvent toutefois être nécessaires pour obtenir de meilleurs résultats musicaux. « Tous ces résultats sont insignifiants, et certains existent depuis plus longtemps – et de meilleure qualité », a observé Dennis Bathory-Kitsz, musicien et compositeur à Northfield Falls, dans le Vermont.

« L'isolation de la voix était maladroite et peu musicale », a-t-il déclaré à Technews.fr. « Les instruments supplémentaires étaient également insignifiants et la plupart des transformations étaient incolores. Le seul avantage est qu’elle ne nécessite aucun apprentissage particulier, le développement de la musicalité pour l’utilisateur de l’IA sera donc minime.

« Cela pourrait ouvrir la voie à de nouvelles utilisations – les vrais musiciens sont déjà merveilleusement inventifs – mais à moins que les développeurs n'aient de meilleures compétences musicales pour commencer, les résultats seront mornes », a-t-il déclaré. « Ils seront des slops musicaux pour rejoindre les slops visuels et verbaux de l'IA. »

Remplaçant AGI

L’intelligence générale artificielle (AGI) étant encore très lointaine, Fugatto pourrait être un modèle de simulation de l’AGI, qui vise à terme à reproduire ou à surpasser les capacités cognitives humaines dans un large éventail de tâches.

« Fugatto fait partie d'une solution qui utilise l'IA générative dans un ensemble collaboratif avec d'autres outils d'IA pour créer une solution de type AGI », a expliqué Rob Enderle, président et analyste principal du groupe Enderle, une société de services-conseils à Bend, Oregon.

« Jusqu'à ce que l'AGI fonctionne », a-t-il déclaré à Technews.fr, « cette approche sera le moyen dominant de créer des projets d'IA plus complets, avec une qualité et un intérêt bien supérieurs. »