OpenAI annonce GPT-4o, un assistant vocal multimodal gratuit pour tous les utilisateurs de ChatGPT
Sam Altman a taquiné l'annonce la semaine dernière alors que les rumeurs tourbillonnaient.
OpenAI a dévoilé GPT-4o, un nouveau modèle d'IA qui combine texte, vision et audio.
Lors de son événement en direct très attendu, Mira Murati, CTO d'OpenAI, a déclaré que GPT-4o peut traiter le texte, l'audio et la vision dans un seul modèle. GPT-4o sera disponible gratuitement pour tous les utilisateurs de ChatGPT. Il est également disponible dans l'API, et coûte la moitié du prix et deux fois plus rapide que GPT -4 Turbo. Le « o » dans le nom signifie « omni », faisant référence à ses modalités combinées dans un seul modèle.
Capacités vocales GPT-4o
L'annonce a confirmé les rumeurs précédentes concernant un assistant vocal. Auparavant, il existait des modèles distincts pour les modalités vocales et visuelles. Mais GPT-4o est « nativement multimodal » dit Sam Altman, PDG d'OpenAI, sur X.
Le tweet a peut-être été supprimé
Désormais, le GPT-4o rassemble les modalités, réduisant ainsi le décalage et le rendant réactif en temps réel. Cela signifie que vous pouvez interrompre le modèle. Il peut également ressentir des émotions et des tons et exprimer ses propres émotions et tons, ce qui lui donne un son extrêmement dramatique ou robotique. Il peut même chanter (si vous le souhaitez).
La voix féminine apaisante utilisée dans la démo ressemble également beaucoup au personnage d'assistant vocal de Scarlett Johansson dans le film Her.
Capacités de vision GPT-4o
Une autre démo a montré la capacité de GPT-4o à résoudre des problèmes mathématiques en utilisant sa modalité de vision. Il peut guider l'utilisateur à travers un problème mathématique de base lors de la résolution de X. En mettant le code en surbrillance sur l'écran, ChaGPT avec GPT-4o peut traiter et comprendre ce qu'est le code et aider à l'améliorer.
Suite aux demandes des utilisateurs, ChatGPT avec GPT-4o a montré sa capacité à traduire en temps réel et à comprendre les émotions.
Le tweet a peut-être été supprimé
Murati a lancé l'événement en partageant la disponibilité d'une nouvelle application de bureau.
Auparavant, la rumeur disait qu'OpenAI annonçait un moteur de recherche ChatGPT ou un nouveau modèle de transformateur GPT-5 avant Google I/O. Le PDG Sam Altman a démenti ces rumeurs avant l'événement de lundi, mais on pense qu'elles sont toujours en développement.