Apple a publié un modèle d’édition d’images IA open source

Date de publication :

Publié il y a 1 an

10 février 2024

Par

Pierre Challon

Apple a publié un modèle d'édition d'images IA open source

Qu’est-ce qu’Apple mijote ?

Apple se lance dans l’édition d’images IA avec un modèle d’IA multimodal open source.

Plus tôt cette semaine, des chercheurs d’Apple et de l’Université de Californie à Santa Barbara ont publié MLLM-Guided Image Editing, ou « MGIE » ; un modèle d’IA multimodal capable d’éditer des images comme Photoshop, basé sur de simples commandes de texte.

Sur le front du développement de l’IA, Apple s’est montré particulièrement prudent quant à ses projets. C’était également l’une des rares entreprises à n’avoir pas annoncé de grands projets d’IA à la suite du battage médiatique ChatGPT de l’année dernière. Cependant, Apple aurait une version interne d’un chatbot de type ChatGPT baptisé « Apple GPT » et Tim Cook a déclaré qu’Apple ferait des annonces majeures en matière d’IA plus tard cette année.

Reste à savoir si cette annonce inclut un outil d’édition d’images IA, mais sur la base de ce modèle, Apple mène certainement des recherches et des développements.

Bien qu’il existe déjà des outils d’édition d’images IA, « les instructions humaines sont parfois trop brèves pour que les méthodes actuelles puissent être capturées et suivies », indique le document de recherche. Cela conduit souvent à des résultats médiocres ou inefficaces. MGIE est une approche différente qui utilise des MLLM, ou grands modèles de langage multimodaux, pour comprendre les invites textuelles ou les « instructions expressives », ainsi que les données de formation d’images. En effet, l’apprentissage des MLLM aide MGIE à comprendre les commandes en langage naturel sans avoir besoin d’une description détaillée.

Dans des exemples tirés de la recherche, MGIE peut prendre une image d’entrée d’une pizza au pepperoni et, à l’aide de l’invite « rendre cela plus sain », en déduire que « ceci » fait référence à la pizza au pepperoni et que « plus sain » peut être interprété comme l’ajout de légumes. Ainsi, l’image de sortie est une pizza au pepperoni avec quelques légumes verts éparpillés dessus.

Dans un autre exemple comparant MGIE à d’autres modèles, l’image d’entrée est un rivage boisé et un plan d’eau tranquille. Avec l’invite « ajouter des éclairs et faire en sorte que l’eau reflète les éclairs », d’autres modèles omettent le reflet de la foudre, mais MGIE réussit à le capturer.

MGIE est disponible en modèle open source sur GitHub et en version démo hébergée sur Hugging Face.

Article suivant

Les assureurs maladie ne peuvent pas compter sur l’IA pour décider de la couverture Medicare, selon de nouvelles directives fédérales

Article précédent

La saison 3 de « The Bear » arrive en juin

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.