ChatGPT déploie des fonctionnalités voix et image

Date de publication :

Publié il y a 2 ans

25 septembre 2023

Par

ChatGPT déploie des fonctionnalités voix et image

Les parents peuvent désormais sous-traiter les histoires au coucher.

Le chatbot préféré de tous peut désormais voir, entendre et parler. Lundi, OpenAI a annoncé de nouvelles fonctionnalités multimodales pour ChatGPT. Les utilisateurs peuvent désormais avoir des conversations vocales ou partager des images avec ChatGPT en temps réel.

Les fonctionnalités audio et multimodales sont devenues la prochaine étape dans une concurrence féroce en matière d’IA générative. Meta a récemment lancé AudioCraft pour générer de la musique avec l’IA, et Google Bard et Microsoft Bing ont tous deux déployé des fonctionnalités multimodales pour leurs expériences de chat. La semaine dernière, Amazon a présenté en avant-première une version remaniée d’Alexa qui sera alimentée par son propre LLM (grand modèle de langage), et même Apple expérimente la voix générée par l’IA, avec Personal Voice.

Les capacités vocales seront disponibles sur iOS et Android. Comme Alexa ou Siri, vous pouvez appuyer pour parler à ChatGPT et il vous répondra dans l’une des cinq options vocales préférées. Contrairement aux assistants vocaux actuels, ChatGPT est alimenté par des LLM plus avancés, vous entendrez donc le même type de réponse conversationnelle et créative que les GPT-4 et GPT-3.5 d’OpenAI sont capables de créer avec du texte. L’exemple partagé par OpenAI dans l’annonce consiste à générer une histoire au coucher à partir d’une invite vocale. Ainsi, les parents épuisés à la fin d’une longue journée peuvent confier leur créativité à ChatGPT.

Le tweet a peut-être été supprimé

La reconnaissance multimodale est quelque chose qui était prévu depuis un certain temps et qui est désormais lancée de manière conviviale pour ChatGPT. Lors de la sortie de GPT-4 en mars dernier, OpenAI a démontré sa capacité à comprendre et interpréter des images et des textes manuscrits. Cela fera désormais partie de l’utilisation quotidienne de ChatGPT. Les utilisateurs peuvent télécharger une image de quelque chose et en parler à ChatGPT – en identifiant un nuage ou en élaborant un plan de repas basé sur une photo du contenu de votre réfrigérateur. Le multimodal sera disponible sur toutes les plateformes.

Comme pour toute avancée en matière d’IA générative, de graves problèmes d’éthique et de confidentialité doivent être pris en compte. Pour atténuer les risques de deepfakes audio, OpenAI affirme n’utiliser sa technologie de reconnaissance audio que pour le cas d’utilisation spécifique du « chat vocal ». En outre, il a été créé avec des doubleurs avec lesquels ils ont « directement travaillé ». Cela dit, l’annonce ne précise pas si les voix des utilisateurs peuvent être utilisées pour entraîner le modèle, lorsque vous optez pour le chat vocal. Concernant les capacités multimodales de ChatGPT, OpenAI affirme avoir « pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus ». Mais le véritable test des utilisations néfastes ne sera connu qu’après sa libération dans la nature.

Le chat vocal et les images seront déployés auprès des utilisateurs de ChatGPT Plus et Enterprise au cours des deux prochaines semaines, et de tous les utilisateurs « peu de temps après ».

Article suivant

Grâce à Travis Kelce, les Swifties entrent dans leur ère du football

Article précédent

Le prix du Google Pixel 8 est en hausse par rapport à l’année dernière, selon des fuites

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.