StabilityAI a dévoilé la deuxième itération de son outil de génération de musique à intelligence artificielle, offrant des pistes plus longues, une prise en charge audio-audio et un plus grand engagement en faveur de la protection des droits d'auteur des créateurs.

Stable Audio 2.0 permet aux utilisateurs de créer des pistes de trois minutes à 44,1 kHz stéréo en saisissant une invite de traitement du langage naturel telle que « Un bel arpège de piano se transforme en une belle pièce orchestrale complète », « Lo-fi funk » ou « solo de batterie ». Les pistes générées par l'IA comprennent des compositions structurées comme une intro, un développement, une sortie et des effets sonores stéréo.

Une autre nouvelle fonctionnalité offerte par Stable Audio 2.0 inclut la possibilité de générer des « échantillons entièrement produits » en téléchargeant un fichier audio sur la plate-forme, évoluant d'un simple outil de conversion texte-audio. Par exemple, imiter le son d'une batterie avec votre voix inciterait l'application à créer un clip audio d'un jeu de batterie.

Lorsqu'ils utilisent la nouvelle fonctionnalité audio-audio, les utilisateurs doivent s'abstenir de télécharger du matériel protégé par le droit d'auteur conformément aux conditions générales de StabilityAI. Il utilise une technologie de reconnaissance de contenu pour garantir le respect de cette politique et empêcher toute violation du droit d'auteur.

Comme avec Stable Audio 1.0, le deuxième modèle est également formé sur la vaste bibliothèque de fichiers audio d'AudioSparx comprenant 800 000 musiques, effets sonores, tiges d'instrument unique et métadonnées textuelles. Pour les musiciens d'AudioSparx mécontents de l'idée que leurs œuvres soient utilisées pour la formation de modèles d'IA, ils ont eu la possibilité de se désinscrire.

Ces politiques renforcées en matière de violation du droit d'auteur et de désinscription des créateurs font suite au récent départ de l'ancien vice-président de l'audio, Ed Newton-Rex. Il a annoncé sa démission en novembre 2023 avec un Message X qui a fortement critiqué l'approche de l'entreprise en matière de respect des droits des créateurs.

« J'ai démissionné de mon rôle de dirigeant de l'équipe audio chez StabilityAI, parce que je ne suis pas d'accord avec l'opinion de l'entreprise selon laquelle la formation de modèles d'IA génératifs sur des œuvres protégées par le droit d'auteur est une » utilisation équitable «  », a-t-il écrit.

Il a conclu son message en exhortant les créateurs à exprimer leurs préoccupations afin de garantir que les entreprises technologiques « réalisent que l'exploitation des créateurs ne peut pas être la solution à long terme en matière d'IA générative ».

Sous la capuche

Audio stable

En plus des pistes plus longues et de la prise en charge audio-audio, Stable Audio 2.0 arbore une architecture renforcée qui facilite la « génération de pistes complètes avec des structures cohérentes ». L'adaptation de chaque composant du système a abouti à « des performances améliorées sur une longue période », ont-ils affirmé.

L'outil propose un nouveau type d'encodeur automatique compressé qui crée des représentations audio plus courtes en compressant les formes d'onde audio brutes. Pendant ce temps, un transformateur de diffusion – similaire à celui qui alimente Stable Diffusion 3 – peut manipuler des données de séquence plus longues.

« La combinaison de ces deux éléments aboutit à un modèle capable de reconnaître et de reproduire les structures à grande échelle essentielles aux compositions musicales de haute qualité », a écrit Stability AI dans un article de blog.

L’outil est gratuit et disponible immédiatement.