ChatGPT déploie des fonctionnalités voix et image
Les parents peuvent désormais sous-traiter les histoires au coucher.
Le chatbot préféré de tous peut désormais voir, entendre et parler. Lundi, OpenAI a annoncé de nouvelles fonctionnalités multimodales pour ChatGPT. Les utilisateurs peuvent désormais avoir des conversations vocales ou partager des images avec ChatGPT en temps réel.
Les fonctionnalités audio et multimodales sont devenues la prochaine étape dans une concurrence féroce en matière d’IA générative. Meta a récemment lancé AudioCraft pour générer de la musique avec l’IA, et Google Bard et Microsoft Bing ont tous deux déployé des fonctionnalités multimodales pour leurs expériences de chat. La semaine dernière, Amazon a présenté en avant-première une version remaniée d’Alexa qui sera alimentée par son propre LLM (grand modèle de langage), et même Apple expérimente la voix générée par l’IA, avec Personal Voice.
Les capacités vocales seront disponibles sur iOS et Android. Comme Alexa ou Siri, vous pouvez appuyer pour parler à ChatGPT et il vous répondra dans l’une des cinq options vocales préférées. Contrairement aux assistants vocaux actuels, ChatGPT est alimenté par des LLM plus avancés, vous entendrez donc le même type de réponse conversationnelle et créative que les GPT-4 et GPT-3.5 d’OpenAI sont capables de créer avec du texte. L’exemple partagé par OpenAI dans l’annonce consiste à générer une histoire au coucher à partir d’une invite vocale. Ainsi, les parents épuisés à la fin d’une longue journée peuvent confier leur créativité à ChatGPT.
Le tweet a peut-être été supprimé
La reconnaissance multimodale est quelque chose qui était prévu depuis un certain temps et qui est désormais lancée de manière conviviale pour ChatGPT. Lors de la sortie de GPT-4 en mars dernier, OpenAI a démontré sa capacité à comprendre et interpréter des images et des textes manuscrits. Cela fera désormais partie de l’utilisation quotidienne de ChatGPT. Les utilisateurs peuvent télécharger une image de quelque chose et en parler à ChatGPT – en identifiant un nuage ou en élaborant un plan de repas basé sur une photo du contenu de votre réfrigérateur. Le multimodal sera disponible sur toutes les plateformes.
Comme pour toute avancée en matière d’IA générative, de graves problèmes d’éthique et de confidentialité doivent être pris en compte. Pour atténuer les risques de deepfakes audio, OpenAI affirme n’utiliser sa technologie de reconnaissance audio que pour le cas d’utilisation spécifique du « chat vocal ». En outre, il a été créé avec des doubleurs avec lesquels ils ont « directement travaillé ». Cela dit, l’annonce ne précise pas si les voix des utilisateurs peuvent être utilisées pour entraîner le modèle, lorsque vous optez pour le chat vocal. Concernant les capacités multimodales de ChatGPT, OpenAI affirme avoir « pris des mesures techniques pour limiter considérablement la capacité de ChatGPT à analyser et à faire des déclarations directes sur les personnes, car ChatGPT n’est pas toujours précis et ces systèmes doivent respecter la vie privée des individus ». Mais le véritable test des utilisations néfastes ne sera connu qu’après sa libération dans la nature.
Le chat vocal et les images seront déployés auprès des utilisateurs de ChatGPT Plus et Enterprise au cours des deux prochaines semaines, et de tous les utilisateurs « peu de temps après ».