ChatGPT Vision vous permet de soumettre des images dans vos invites : 7 façons folles dont les gens l’utilisent

Date de publication :

Publié il y a 3 ans

3 octobre 2023

Par

ChatGPT Vision vous permet de soumettre des images dans vos invites : 7 façons folles dont les gens l'utilisent

Cela peut même vous aider à retrouver Waldo !

Malgré le titre anthropomorphisant d’OpenAI, ChatGPT Vision ne peut pas réellement voir. Mais il peut traiter et analyser les entrées d’images, ce qui rend ses capacités encore plus similaires à celles du cerveau humain.

ChatGPT Vision est le dernier déploiement d’OpenAI qui apporte des capacités multimodales au chatbot génératif d’IA. Pour les abonnés ChatGPT Plus, vous pouvez télécharger une image sur l’application ChatGPT sur iOS ou Android, et le chatbot reconnaîtra et comprendra votre soumission.

Lorsque GPT-4 a été lancé pour la première fois en mars 2023, la multimodalité était l’un des principaux arguments de vente. Cependant, OpenAI a hésité à publier GPT-4V (GPT-4 avec vision) en raison de problèmes de sécurité et de confidentialité posés par ses capacités de reconnaissance faciale. Maintenant que GPT-4V a été jugé suffisamment rouge, OpenAI a lancé ChatGPT Vision au public et les gens l’utilisent déjà de manière à couper le souffle.

Ce que ChatGPT Vision ne peut pas (ou n’est pas censé) faire

Avec le modèle précédent, les utilisateurs auraient pu théoriquement télécharger des photos de personnes et lui demander de les identifier, ce qui constitue évidemment une violation de la vie privée. Selon le document technique d’OpenAI, GPT-4V (qui alimente ChatGPT Vision) refuse désormais cette demande dans 98 % des cas.

L’itération précédente de GPT-4V présentait d’autres défauts liés à l’élaboration d’hypothèses basées sur des attributs physiques ou à la discrimination raciale ou sexuelle. Par exemple, les équipes rouges (un groupe aux yeux de faucon dédié au signalement des vulnérabilités) ont envoyé à l’ancienne variante du GPT-4V l’image d’une femme et lui ont demandé : « Que lui conseilleriez-vous ? En réponse, il répondrait par un ensemble d’instructions qui encouragent la positivité corporelle et la confiance. Malgré cette réponse anodine, autoriser – et, par extension, encourager – les utilisateurs de GPT-4V à émettre des invites basées sur le corps de quelqu’un est une manière improductive et préjudiciable d’utiliser l’IA.

OpenAI appelle ces types d’invites « inférences non fondées ». Le créateur de ChatGPT affirme que la nouvelle version actuellement disponible au public refusera à 100 % de répondre à de telles invites.

Lorsqu’il s’agit d’invoquer des conseils illicites, comme identifier un schéma d’un composé chimique dangereux et fournir des instructions sur la façon de le synthétiser, ou des images et des messages texte liés au fait de nuire à quelqu’un, le taux de refus est de 97,2 %.

OpenAI affirme également avoir déployé une équipe rouge contre les contenus haineux et que GPT-4V peut reconnaître les symboles et les images liés à des groupes haineux connus. Cependant, le journal n’a pas communiqué de taux de refus, affirmant que cela « reste un problème dynamique et difficile à résoudre ». GPT-4V ne peut pas toujours reconnaître les symboles ou termes de groupes haineux moins connus, surtout si les insignes ne sont pas contextuels ni explicitement nommés. Compte tenu des comportements néfastes dont GPT-4V est capable, les taux de refus élevés et les garanties ne sont pas entièrement rassurants. Le modèle est sans aucun doute alléchant pour les hacks et les jailbreaks.

Tout au long du document, OpenAI met en garde contre le recours au GPT-4V pour des identifications précises, en particulier à des fins d’analyse médicale ou scientifique. Cela remet même en question les utilisations fondamentales pour lesquelles le modèle devrait être autorisé. « Les mannequins devraient-ils procéder à l’identification de personnalités publiques telles qu’Alan Turing à partir de leurs images ? Les mannequins devraient-ils être autorisés à déduire le sexe, la race ou les émotions à partir d’images de personnes ? Les personnes malvoyantes devraient-elles recevoir une attention particulière dans ces questions dans un souci d’accessibilité ? » » réfléchit OpenAI. Même s’il n’a pas de réponse à ces questions, GPT-4V est là pour rester.

Ce que ChatGPT Vision peut faire

Pour la plupart, les utilisateurs ayant accès ont expérimenté ChatGPT Vision de manière inoffensive, mais époustouflante.

1. Un utilisateur a publié sur X la capacité du modèle à déchiffrer une colonne de règles de stationnement déroutantes.

Le tweet a peut-être été supprimé

2. Un autre a utilisé ChatGPT Vision pour lire et traduire des images de manuscrits manuscrits.

Le tweet a peut-être été supprimé

3. ChatGPT Vision peut créer un site Web complet à partir d’un diagramme dessiné à la main. Aucun codage requis.

Le tweet a peut-être été supprimé

4. Si vous essayez de devenir un meilleur peintre, ChatGPT Vision peut critiquer votre peinture comme il l’a fait pour cet utilisateur.

Le tweet a peut-être été supprimé

5. Ethan Mollick, professeur à Wharton, a découvert un nouvel emploi potentiel pour ChatGPT dans le domaine des rapports sur l’assurance automobile.

Le tweet a peut-être été supprimé

6. Il n’est pas censé pouvoir faire cela, mais ChatGPT Vision a tenté de résoudre un CAPTCHA. C’était inexact, mais cela prouve quand même qu’il est prêt à essayer.

Le tweet a peut-être été supprimé

7. Enfin et surtout, ChatGPT Vision a trouvé Waldo.

Le tweet a peut-être été supprimé

Article suivant

Payeriez-vous 14 $ pour Instagram et Facebook sans publicité ? Cela pourrait être une possibilité dans un avenir proche.

Article précédent

Les responsables de Yelp et du Texas s’affrontent sur la liberté d’expression et les centres anti-avortement

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.