Apple a publié un modèle d’édition d’images IA open source
Qu’est-ce qu’Apple mijote ?
Apple se lance dans l’édition d’images IA avec un modèle d’IA multimodal open source.
Plus tôt cette semaine, des chercheurs d’Apple et de l’Université de Californie à Santa Barbara ont publié MLLM-Guided Image Editing, ou « MGIE » ; un modèle d’IA multimodal capable d’éditer des images comme Photoshop, basé sur de simples commandes de texte.
Sur le front du développement de l’IA, Apple s’est montré particulièrement prudent quant à ses projets. C’était également l’une des rares entreprises à n’avoir pas annoncé de grands projets d’IA à la suite du battage médiatique ChatGPT de l’année dernière. Cependant, Apple aurait une version interne d’un chatbot de type ChatGPT baptisé « Apple GPT » et Tim Cook a déclaré qu’Apple ferait des annonces majeures en matière d’IA plus tard cette année.
Reste à savoir si cette annonce inclut un outil d’édition d’images IA, mais sur la base de ce modèle, Apple mène certainement des recherches et des développements.
Bien qu’il existe déjà des outils d’édition d’images IA, « les instructions humaines sont parfois trop brèves pour que les méthodes actuelles puissent être capturées et suivies », indique le document de recherche. Cela conduit souvent à des résultats médiocres ou inefficaces. MGIE est une approche différente qui utilise des MLLM, ou grands modèles de langage multimodaux, pour comprendre les invites textuelles ou les « instructions expressives », ainsi que les données de formation d’images. En effet, l’apprentissage des MLLM aide MGIE à comprendre les commandes en langage naturel sans avoir besoin d’une description détaillée.
Dans des exemples tirés de la recherche, MGIE peut prendre une image d’entrée d’une pizza au pepperoni et, à l’aide de l’invite « rendre cela plus sain », en déduire que « ceci » fait référence à la pizza au pepperoni et que « plus sain » peut être interprété comme l’ajout de légumes. Ainsi, l’image de sortie est une pizza au pepperoni avec quelques légumes verts éparpillés dessus.
Dans un autre exemple comparant MGIE à d’autres modèles, l’image d’entrée est un rivage boisé et un plan d’eau tranquille. Avec l’invite « ajouter des éclairs et faire en sorte que l’eau reflète les éclairs », d’autres modèles omettent le reflet de la foudre, mais MGIE réussit à le capturer.
MGIE est disponible en modèle open source sur GitHub et en version démo hébergée sur Hugging Face.