Google travaille sur des bandes sonores et des dialogues génératifs pour les vidéos

Date de publication :

Publié il y a 10 mois

18 juin 2024

Par

Google travaille sur des bandes sonores et des dialogues génératifs pour les vidéos

Ainsi, l’IA peut désormais composer des films.

Tout le monde sait que le son est un élément essentiel de la plupart des films et vidéos. Après tout, même lorsque les films étaient muets, il y avait toujours un accompagnateur musical qui faisait savoir au public ce qu'il ressentait.

Cette loi naturelle reste la même pour la nouvelle génération de vidéos génératives d’IA, qui apparaissent étrangement silencieuses. C'est en partie pourquoi Google a travaillé sur la technologie « vidéo-audio » (V2A) qui « rend possible la génération audiovisuelle synchronisée ». Lundi, le laboratoire d'IA de Google, DeepMind, a partagé les progrès réalisés dans la génération de tels fichiers audio, notamment des bandes sonores et des dialogues qui correspondent automatiquement aux vidéos générées par l'IA.

Google a travaillé dur pour développer une technologie d’IA générative multimodale pour rivaliser avec ses concurrents. OpenAI dispose de son générateur vidéo IA Sora (qui n'a pas encore été rendu public) et de GPT-4o, qui crée des réponses vocales IA. Des sociétés comme Meta et Suno explorent l’audio et la musique générés par l’IA, mais l’association de l’audio à la vidéo est relativement nouvelle. ElevenLabs dispose d'un outil similaire qui fait correspondre les invites audio aux invites textuelles, mais DeepMind indique que V2A est différent car il ne nécessite pas d'invites textuelles.

V2A peut être associé à des outils vidéo d’IA tels que Google Veo ou à des séquences d’archives et des films muets existants. Cela peut être utilisé pour les bandes sonores, les effets sonores et même les dialogues. Il fonctionne en utilisant un modèle de diffusion entraîné avec des entrées visuelles, des invites en langage naturel et des annotations vidéo pour affiner progressivement le bruit aléatoire en un son qui correspond au ton et au contexte des vidéos.

Google DeepMind indique que V2A peut « comprendre les pixels bruts », vous n'avez donc pas réellement besoin d'une invite de texte pour générer l'audio, mais cela contribue à la précision. Le modèle peut également être invité à rendre le ton de l'audio positif ou négatif. Parallèlement à cette annonce, DeepMind a publié quelques vidéos de démonstration, notamment une vidéo d'un couloir sombre et effrayant accompagné d'une musique d'horreur, un cow-boy solitaire au coucher du soleil sur un doux air d'harmonica et un personnage animé parlant de son dîner.

V2A inclura le filigrane SynthID de Google comme mesure de protection contre toute utilisation abusive, et le blog de Deepmind indique que la fonctionnalité est actuellement en cours de test avant d'être rendue publique.

Article suivant

Internet est obsédé par un nouveau jeu de banane ennuyeux

Article précédent

Obtenez le remake chéri de Switch « The Legend of Zelda: Link's Awakening » pour seulement 39,99 $ chez Walmart

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.