Rejoignez-nous
Divers

OpenAI annonce GPT-4o, un assistant vocal multimodal gratuit pour tous les utilisateurs de ChatGPT

Pierre

Date de publication :

le

OpenAI annonce GPT-4o, un assistant vocal multimodal gratuit pour tous les utilisateurs de ChatGPT

Sam Altman a taquiné l'annonce la semaine dernière alors que les rumeurs tourbillonnaient.

OpenAI a dévoilé GPT-4o, un nouveau modèle d'IA qui combine texte, vision et audio.

Lors de son événement en direct très attendu, Mira Murati, CTO d'OpenAI, a déclaré que GPT-4o peut traiter le texte, l'audio et la vision dans un seul modèle. GPT-4o sera disponible gratuitement pour tous les utilisateurs de ChatGPT. Il est également disponible dans l'API, et coûte la moitié du prix et deux fois plus rapide que GPT -4 Turbo. Le « o » dans le nom signifie « omni », faisant référence à ses modalités combinées dans un seul modèle.

Capacités vocales GPT-4o

L'annonce a confirmé les rumeurs précédentes concernant un assistant vocal. Auparavant, il existait des modèles distincts pour les modalités vocales et visuelles. Mais GPT-4o est « nativement multimodal » dit Sam Altman, PDG d'OpenAI, sur X.

Désormais, le GPT-4o rassemble les modalités, réduisant ainsi le décalage et le rendant réactif en temps réel. Cela signifie que vous pouvez interrompre le modèle. Il peut également ressentir des émotions et des tons et exprimer ses propres émotions et tons, ce qui lui donne un son extrêmement dramatique ou robotique. Il peut même chanter (si vous le souhaitez).

La voix féminine apaisante utilisée dans la démo ressemble également beaucoup au personnage d'assistant vocal de Scarlett Johansson dans le film Her.

Capacités de vision GPT-4o

Une autre démo a montré la capacité de GPT-4o à résoudre des problèmes mathématiques en utilisant sa modalité de vision. Il peut guider l'utilisateur à travers un problème mathématique de base lors de la résolution de X. En mettant le code en surbrillance sur l'écran, ChaGPT avec GPT-4o peut traiter et comprendre ce qu'est le code et aider à l'améliorer.

Suite aux demandes des utilisateurs, ChatGPT avec GPT-4o a montré sa capacité à traduire en temps réel et à comprendre les émotions.

Murati a lancé l'événement en partageant la disponibilité d'une nouvelle application de bureau.

Auparavant, la rumeur disait qu'OpenAI annonçait un moteur de recherche ChatGPT ou un nouveau modèle de transformateur GPT-5 avant Google I/O. Le PDG Sam Altman a démenti ces rumeurs avant l'événement de lundi, mais on pense qu'elles sont toujours en développement.

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.