Le nouveau modèle d’IA de Google crée des chansons à partir de descriptions textuelles d’humeurs, de sons


Jeudi, des chercheurs de Google ont annoncé un nouveau modèle d’IA génératif appelé MusicLM qui peut créer un son musical de 24 kHz à partir de descriptions textuelles, comme « une mélodie de violon apaisante soutenue par un riff de guitare déformé ». Il peut également transformer une mélodie fredonnée en un style musical différent et produire une musique haute fidélité et soutenue pendant plusieurs minutes.

MusicLM utilise un modèle d’IA formé sur ce que Google appelle « un grand ensemble de données de musique sans étiquette », ainsi que des légendes de MusicCaps, un nouvel ensemble de données composé de 5 521 paires musique-texte. MusicCaps obtient ses descriptions textuelles d’experts humains et ses clips audio correspondants de l’AudioSet de Google, une collection de plus de 2 millions de clips audio étiquetés de 10 secondes extraits de vidéos YouTube.

D’une manière générale, MusicLM fonctionne en deux parties principales : premièrement, il prend une séquence de jetons audio (morceaux de son) et les mappe à des jetons sémantiques (mots qui représentent le sens) dans les sous-titres pour la formation. La deuxième partie reçoit les sous-titres de l’utilisateur et/ou l’audio d’entrée et génère des jetons acoustiques (morceaux de son qui composent la sortie de la chanson résultante). Le système s’appuie sur un modèle d’IA antérieur appelé AudioLM (introduit par Google en septembre) ainsi que sur d’autres composants tels que SoundStream et MuLan.

Google affirme que MusicLM surpasse les précédents générateurs de musique AI en termes de qualité audio et de respect des descriptions textuelles. Sur la page de démonstration MusicLM, Google fournit de nombreux exemples du modèle d’IA en action, créant de l’audio à partir de « sous-titres riches » qui décrivent la sensation de la musique, et même des voix (qui jusqu’à présent sont du charabia). Voici un exemple de légende riche qu’ils fournissent :

Chanson reggae au tempo lent et à la basse et à la batterie. Guitare électrique soutenue. Bongos aigus avec sonneries. Les voix sont détendues avec une sensation décontractée, très expressive.

Google présente également la « longue génération » de MusicLM (création de clips musicaux de cinq minutes à partir d’une simple invite), le « mode histoire » (qui prend une séquence d’invites de texte et la transforme en une série de morceaux musicaux morphing), « texte et mélodie conditionnement » (qui prend une entrée audio de bourdonnement ou de sifflement humain et la modifie pour correspondre au style présenté dans une invite), et générer de la musique qui correspond à l’ambiance des légendes d’image.

Un schéma fonctionnel du modèle de génération de musique MusicLM AI tiré de son article académique.

Plus bas dans la page d’exemple, Google plonge dans la capacité de MusicLM à recréer des instruments particuliers (par exemple, flûte, violoncelle, guitare), différents genres musicaux, différents niveaux d’expérience de musicien, des lieux (évasion de prison, gymnase), des périodes (un club dans les années 1950 ), et plus.

La musique générée par l’IA n’est pas une idée nouvelle, mais les méthodes de génération de musique par l’IA des décennies précédentes ont souvent créé une notation musicale qui a ensuite été jouée à la main ou via un synthétiseur, tandis que MusicLM génère les fréquences audio brutes de la musique. De plus, en décembre, nous avons couvert Riffusion, un projet d’IA amateur qui peut de la même manière créer de la musique à partir de descriptions textuelles, mais pas en haute fidélité. Google fait référence à Riffusion dans son article académique MusicLM, affirmant que MusicLM le surpasse en qualité.

Dans l’article de MusicLM, ses créateurs décrivent les impacts potentiels de MusicLM, y compris le « détournement potentiel du contenu créatif » (c’est-à-dire les problèmes de droit d’auteur), les biais potentiels pour les cultures sous-représentées dans les données de formation et les problèmes potentiels d’appropriation culturelle. En conséquence, Google souligne la nécessité de travailler davantage sur la lutte contre ces risques, et ils retiennent le code : « Nous n’avons pas l’intention de publier des modèles à ce stade. »

Les chercheurs de Google envisagent déjà des améliorations futures : « Les travaux futurs pourraient se concentrer sur la génération de paroles, ainsi que sur l’amélioration du conditionnement du texte et de la qualité vocale. Un autre aspect est la modélisation de la structure de chanson de haut niveau comme l’introduction, le couplet et le refrain. la musique à un taux d’échantillonnage plus élevé est un objectif supplémentaire. »

Il n’est probablement pas exagéré de suggérer que les chercheurs en IA continueront d’améliorer la technologie de génération de musique jusqu’à ce que n’importe qui puisse créer de la musique de qualité studio dans n’importe quel style simplement en la décrivant – bien que personne ne puisse encore prédire exactement quand cet objectif sera atteint ou comment exactement cela aura un impact sur l’industrie de la musique. Restez connectés pour de prochains développements.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*