OpenAI vient de dévoiler DALL-E 3, son nouveau générateur d’images
Il peut ajouter du texte (sans charabia) aux images.
OpenAI, la société mère de ChatGPT, a donné son premier aperçu public officiel de DALL-E 3, son dernier modèle de génération d’images. Lancé mercredi lors d’un petit événement destiné aux journalistes, DALL-E 3 est présenté comme un outil qui comprend parfaitement les invites textuelles complexes et produit des images pour les faire correspondre en complexité.
Comme le note une nouvelle page d’informations sur DALL-E 3 sur le site Web d’OpenAI, « les systèmes modernes de conversion texte-image ont tendance à ignorer les mots ou les descriptions, obligeant les utilisateurs à apprendre l’ingénierie rapide. DALL-E 3 représente un pas en avant dans notre capacité à générer des images qui adhèrent exactement au texte que vous fournissez.
Des images possibles d’une version en cours de DALL-E 3 ont été divulguées sur Discord plus tôt cet été, et celles-ci ont montré un énorme potentiel dans le sens décrit dans l’aperçu de presse. Le fuyard a affirmé avoir alimenté DALL-E 3 avec la longue invite « peinture d’un bouffon rose donnant un high five à un panda lors d’une compétition cycliste. Les vélos sont faits de fromage et le sol est très boueux. Ils conduisent dans un forêt brumeuse. Le panda est en colère. L’image résultante était tout simplement étonnante par sa fidélité à cette demande.
Les générateurs d’images comme Midjourney et Stable Diffusion, bien que capables d’imiter le photoréalisme et de produire des représentations d’un large éventail d’objets, de styles et de personnes (avec une certaine controverse qui les accompagne), auront sans aucun doute du mal à produire quelque chose d’aussi complexe.
Ces générateurs d’images, ainsi que les offres précédentes d’OpenAI dans ce domaine, échouent également lorsqu’on leur demande de produire des images contenant du texte – produisant généralement au mieux des absurdités tronquées et au pire des malapropismes hilarants. DALL-E 3 me semble bien plus capable d’incorporer du texte cohérent dans des images, comme le démontre un dessin animé posté sur X par Sam Altman, PDG d’OpenAI.
Le tweet a peut-être été supprimé
Open AI indique qu’il intégrera DALL-E 3 directement dans ChatGPT et implique fortement que le chatbot passera d’un modèle à un autre, en fonction du contenu de l’invite. ChatGPT, autrefois un simple robinet convivial pour les sorties de texte du modèle GPT-3.5, évolue rapidement en intégrant des plugins tiers avec la possibilité d’extraire du texte à partir d’autres sources, y compris le Web. Cette décision diversifie davantage les capacités de ChatGPT, élargissant la définition déjà tendue du terme « chatbot ».
DALL-E 3 « sera disponible pour tous les utilisateurs de ChatGPT+ au cours des prochaines semaines », selon Altman. Le site Web d’OpenAI indique que tous les clients ChatGPT Plus et ChatGPT Enterprise pourront l’utiliser « début octobre » et qu’OpenAI ne fera aucune réclamation de droits d’auteur sur les sorties du modèle. Cependant, si vous envisagez de générer quelque chose avec DALL-E 3 et que vous le protégez ensuite vous-même, c’est une toute autre boîte de Pandore.