L’IA Make-A-Video de Meta est Dall-E pour les clips vidéo

Date de publication :

Publié il y a 3 ans

28 avril 2023

Par

L'IA Make-A-Video de Meta est Dall-E pour les clips vidéo

Nous marchons chaque jour plus profondément dans l’ombre de la vallée étrange.

Le générateur de texte en image préféré de tous Dall-E a un nouveau concurrent de Meta : un générateur de vidéo en texte appelé Make-A-Video. L’outil génère des extraits vidéo courts et silencieux basés sur le même type d’invites de texte que vous envoyez à Dall-E.

Mais Dall-E est un jeu d’enfant par rapport à Make-A-Video, du moins selon Mark Zuckerberg. Le PDG de Meta a noté dans un post Facebook, « Il est beaucoup plus difficile de générer des vidéos que des photos, car au-delà de la génération correcte de chaque pixel, le système doit également prévoir leur évolution dans le temps. » Make-A-Video n’a pas ce problème car il « comprend le mouvement dans le monde physique et l’applique à la génération traditionnelle de texte à image ».

Une autre fonctionnalité Make-A-Video est la possibilité d’ajouter du mouvement aux images statiques. La transformation par Make-A-Video d’une image statique d’une femme faisant une pose de yoga, par exemple, la fait se pencher plus profondément dans son étirement alors qu’une lumière scintille sur l’objectif. D’autres exemples de l’outil sont disponibles sur son site webqui note que vous pouvez également montrer Make-A-Video une vidéo existante et être présenté avec plusieurs nouvelles interprétations.

Nous prendrons tous ces exemples avec un grain de sel, puisque Make-A-Video n’est pas encore disponible au public, mais c’est un nouveau développement potentiel fou pour l’intelligence artificielle.

Meta a publié un article sur l’outil que vous pouvez lire sur ce lien. Il détaille comment il a été formé, ainsi que les limites techniques de l’outil, qui incluent son incapacité à générer des clips de plus de cinq secondes et à fournir des résolutions supérieures à 768 par 768 pixels à 16 images par seconde. Le bord note que le seul modèle de conversion texte-vidéo accessible au public, appelé CogVideo, est accablé par les mêmes limitations.

Article suivant

Économisez 40 $ sur le tout nouveau Fire TV Cube 4K lorsque vous le précommandez sur Amazon

Article précédent

«L’intelligence ambiante» d’Amazon est une façon confortable de dire la surveillance à domicile

Nicolas Gaillard

Nicolas est journaliste depuis 2014, mais avant tout passionné des jeux vidéo depuis sa naissance, et des nouvelles technologies depuis son adolescence.