Le générateur vidéo IA d’Alibaba vient de se lancer sur Sora en faisant chanter la dame Sora

Date de publication :

Publié il y a 1 an

29 février 2024

Par

Le générateur vidéo IA d'Alibaba vient de se lancer sur Sora en faisant chanter la dame Sora

Alibaba l’appelle « EMO », et c’est certainement le cas.

Alibaba souhaite que vous compariez son nouveau générateur vidéo AI à Sora d’OpenAI. Sinon, pourquoi l’utiliser pour faire de la création la plus célèbre de Sora une chanson de Dua Lipa ?

Mardi, une organisation appelée « Institut pour l’informatique intelligente » au sein du géant chinois du commerce électronique Alibaba a publié un article sur un nouveau générateur vidéo d’IA intrigant qu’elle a développé et qui est incroyablement efficace pour transformer des images fixes de visages en acteurs passables et chanteurs charismatiques. Le système s’appelle EMO, un backronym amusant censé être tiré des mots « Emotive Portrait Alive » (mais, dans ce cas, pourquoi ne s’appelle-t-il pas « EPO » ?).

EMO est un aperçu d’un avenir dans lequel un système comme Sora crée des mondes vidéo, et plutôt que d’être peuplé de personnes attirantes et muettes qui se regardent un peu, les « acteurs » de ces créations d’IA disent des choses – ou même chantent.

Alibaba a mis des vidéos de démonstration sur GitHub pour montrer son nouveau framework de génération de vidéos. Celles-ci incluent une vidéo de la dame Sora – célèbre pour se promener dans Tokyo généré par l’IA juste après une tempête de pluie – chantant « Don’t Start Now » de Dua Lipa et devenant assez funky avec cela.

Les démos révèlent également comment EMO peut, pour ne citer qu’un exemple, obliger Audrey Hepburn à prononcer l’audio d’un clip viral de Lili Reinhart de Riverdale parlant de combien elle adore pleurer. Dans ce clip, la tête de Hepburn maintient une position verticale plutôt semblable à celle d’un soldat, mais tout son visage – pas seulement sa bouche – semble vraiment exprimer les mots de l’audio.

Contrairement à cette version étrange de Hepburn, Reinhart dans le clip original bouge beaucoup la tête, et elle émet également des émotions très différentes, donc EMO ne semble pas être un riff sur le genre d’échange de visage d’IA qui est devenu viral. au milieu des années 2010 et a conduit à la montée des deepfakes en 2017.

Au cours des dernières années, des applications conçues pour générer des animations faciales à partir de l’audio sont apparues, mais elles n’ont pas été très inspirantes. Par exemple, le progiciel NVIDIA Omniverse vante une application avec un cadre d’animation audio-facial appelé « Audio2Face » – qui s’appuie sur l’animation 3D pour ses sorties plutôt que de simplement générer une vidéo photoréaliste comme EMO.

Bien qu’Audio2Face n’ait que deux ans, la démo EMO le fait ressembler à une antiquité. Dans une vidéo qui prétend montrer sa capacité à imiter les émotions tout en parlant, le visage 3D qu’elle représente ressemble davantage à une marionnette dans un masque d’expression faciale, tandis que les personnages d’EMO semblent exprimer les nuances d’émotions complexes qui apparaissent dans chaque clip audio. .

Il convient de noter à ce stade que, comme pour Sora, nous évaluons ce framework d’IA sur la base d’une démo fournie par ses créateurs, et que nous n’avons pas réellement la main sur une version utilisable que nous puissions tester. Il est donc difficile d’imaginer que dès le départ, ce logiciel puisse produire des performances faciales humaines aussi convaincantes, basées sur l’audio, sans essais et erreurs significatifs, ni ajustements spécifiques à une tâche.

La plupart des personnages des démos n’expriment pas un discours qui appelle des émotions extrêmes – des visages déformés par la rage ou fondant en larmes, par exemple – il reste donc à voir comment EMO gérerait les émotions fortes avec l’audio seul comme guide. . De plus, bien qu’il soit fabriqué en Chine, il est décrit comme un polyglotte total, capable de capter la phonétique de l’anglais et du coréen et de faire en sorte que les visages forment les phonèmes appropriés avec une fidélité décente, bien que loin d’être parfaite. En d’autres termes, ce serait bien de voir ce qui se passerait si vous mettiez dans EMO l’audio d’une personne très en colère parlant une langue moins connue pour voir à quel point cela fonctionnait.

Les petits embellissements entre les phrases – lèvres pincées ou regard vers le bas – qui insèrent de l’émotion dans les pauses plutôt que simplement dans les moments où les lèvres bougent sont également fascinants. Ce sont des exemples de la façon dont un vrai visage humain émeut, et il est tentant de voir EMO les réussir si bien, même dans une démo aussi limitée.

Selon le document, le modèle d’EMO s’appuie sur un vaste ensemble de données audio et vidéo (encore une fois : d’où ?) pour lui donner les points de référence nécessaires pour émettre une émotion de manière aussi réaliste. Et son approche basée sur la diffusion ne comporte apparemment pas d’étape intermédiaire dans laquelle les modèles 3D font une partie du travail. Un mécanisme d’attention de référence et un mécanisme d’attention audio distinct sont associés par le modèle d’EMO pour fournir des personnages animés dont les animations faciales correspondent à ce qui apparaît dans l’audio tout en restant fidèles aux caractéristiques faciales de l’image de base fournie.

C’est une collection impressionnante de démos, et après les avoir regardées, il est impossible de ne pas imaginer ce qui va suivre. Mais si vous gagnez votre argent en tant qu’acteur, essayez de ne pas trop imaginer, car les choses deviennent assez vite perturbantes.

Article suivant

En quoi « Dune : Partie 2 » est-il différent du livre ?

Article précédent

Will Forte envoie son amour aux acteurs et à l’équipe de « Coyote vs. Acme » abandonné

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.