Meta lance AudioCraft, un générateur de musique AI open source

Date de publication :

Publié il y a 3 ans

3 août 2023

Par

Meta lance AudioCraft, un générateur de musique AI open source

Une nouvelle façon de faire de la musique avec l’IA.

Le nouveau générateur de musique AI de Meta est le dernier d’une série de produits AI récemment lancés par la société de technologie.

Mercredi, Meta a annoncé la sortie d’AudioCraft, une IA générative open source qui crée de l’audio et de la musique à partir d’invites textuelles. AudioCraft a trois modèles, MusicGen pour composer de la musique, AudioGen pour créer des effets sonores et EnCodec, qui utilise l’IA pour aider à la compression audio qui surpasse le format MP3.

Au cas où vous vous poseriez des questions sur les problèmes de droit d’auteur, MusicGen a été formé sur la musique appartenant à Meta et sous licence.

Meta a poussé de manière agressive à proposer des outils basés sur l’IA aux masses en concurrence avec OpenAI, Google et Microsoft. En juillet, il a publié son open-source Llama 2, la dernière version de son LLM (large language model).

Contrairement au GPT-4 d’OpenAI et au PaLM 2 de Google, Llama 2 est open-source, ce qui gagne des points Meta parmi les développeurs et les éthiciens qui croient en la transparence du développement de l’IA. Il y a aussi des rumeurs selon lesquelles Meta lancerait des « personas » IA alias des chatbots pour Instagram, Facebook et WhatsApp.

AudioCraft a été conçu en pensant aux musiciens et aux concepteurs sonores pour « inspirer, aider les gens à réfléchir rapidement et à itérer sur leurs compositions de nouvelles manières », indique l’annonce.

Les exemples dans l’article de blog incluent des extraits audio de l’invite « Whistling with wind blowing » et « Piste de danse pop avec des mélodies accrocheuses, des percussions tropicales et des rythmes entraînants, parfaits pour la plage », qui… sonnent avec succès comme ces descriptions.

Une grande partie des développements récents de l’IA générative se sont concentrés sur la génération de texte et d’image, qui est un processus plus simple.

Le text-to-audio est une entreprise plus compliquée que Meta semble avoir fissurée. AudioCraft apprend les jetons audio à partir de signaux bruts à l’aide de son codec audio neuronal exclusif EnCodec pour créer un nouveau « vocabulaire » pour le modèle.

Il forme ensuite des modèles de langage sur ce vocabulaire audio afin que le modèle comprenne les associations entre l’audio et le texte. Étant donné qu’AudioCraft est également open-source, le code est disponible sur GitHub pour que les utilisateurs puissent l’explorer et le tester par eux-mêmes.

Article suivant

Dyson vient de déposer un autre accessoire pour le sèche-cheveux Supersonic

Article précédent

Vous reviendrez sur Threads plus tôt que vous ne le pensez

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.