3 thèmes superposés d'OpenAI et de Google qui prouvent qu'ils sont en guerre
La tension latente au sein des entreprises commence à bouillonner.
Lors du Google I/O plus tôt cette semaine, l’IA générative était sans surprise un point central.
En fait, le PDG de Google, Sundar Pichai, a souligné que « IA » avait été prononcé 122 fois, et deux fois de plus par Pichai à la clôture de l'événement.
Le géant de la technologie a injecté des fonctionnalités d'IA dans apparemment tous ses produits et services, y compris la recherche, l'espace de travail et les outils de création pour les vidéos, les photos et la musique. Mais la plus grande nouvelle de la journée a sans doute été la comparaison entre les annonces de Google et celles d'OpenAI. Juste un jour avant Google I/O, OpenAI a dévoilé GPT-4o, un modèle « nativement multimodal » capable de traiter les images et l'audio en temps réel, ce qui a apparemment intensifié la rivalité naissante.
L'ambiance de Google I/O était très différente de celle de l'événement OpenAI. Google semblait flou, jetant des spaghettis d'IA sans fin au mur lors d'un événement qui a duré près de deux heures, comparé au spectacle concentré et aéré de 26 minutes d'OpenAI.
Mais les capacités d'IA que les deux sociétés partageaient étaient sensiblement similaires, même en utilisant la même rhétorique (l'IA est « interruptible ») et les mêmes exemples (l'IA peut aider à faire ses devoirs). Ci-dessous, nous avons rassemblé les trois grandes et étranges similitudes dans les messages des deux sociétés.
1. Simuler simultanément plusieurs entrées sensorielles de type humain
Google et OpenAI ont tous deux déclaré que leurs modèles d'IA étaient « nativement multimodaux ». Dans ce contexte, ce morceau de jargon signifie que les modèles ont une compréhension visuelle, audio et textuelle à la fois. Dans le monde de l’IA, ces types d’expression sont décrits comme des « modalités ».
Google a fièrement affirmé que Gemini était « nativement multimodal » depuis le début. Le GPT-4o d'OpenAI était son premier modèle combinant le traitement de la voix et de l'image avec ses capacités de texte existantes. Désormais, Google et OpenAI sont sur un pied d’égalité multimodal. Les deux sociétés ont montré ce qu'elles pouvaient faire avec des technologies capables de « voir » et « d'entendre ».
Le tweet a peut-être été supprimé
Mais les deux sociétés ont présenté des fonctionnalités démontrant explicitement les capacités de leurs modèles à « voir » et « entendre » en temps réel.
Le tweet a peut-être été supprimé
La vice-présidente de Google, Sissie Hsiao, a présenté une fonctionnalité Live pour l'application Gemini autonome qui fait écho à ce sur quoi DeepMind travaille avec le projet Astra, et pourrait être la technologie qui alimentera cette fonctionnalité qui sera disponible pour les abonnés Gemini Advanced dans les mois à venir. Gemini Live « peut mieux vous comprendre et répondre naturellement, vous pouvez même interrompre pendant que Gemini répond et il s'adaptera à votre façon de parler », a déclaré Hsiao.
Le tweet a peut-être été supprimé
Si un robot IA que vous pouvez interrompre vous semble familier, c'est parce qu'OpenAI l'a dit en premier. « Vous pouvez désormais interrompre le modèle », a déclaré le chercheur Mark Chen lors de la démonstration en direct d'OpenAI la veille de Google I/O. « Vous n'avez pas besoin d'attendre la fin de votre tour avant de commencer à parler et vous pouvez intervenir quand vous le souhaitez. »
Plus tard dans la démo en direct d'OpenAI, le chercheur Barrett Zoph a utilisé GPT-4o pour l'aider à résoudre une équation mathématique linéaire. Zoph a pointé l'appareil photo de son smartphone sur un morceau de papier avec une équation écrite à la main, et ChatGPT lui a expliqué comment résoudre « x ».
Sameer Samat, président de l'écosystème Android de Google, a démontré une capacité similaire à aider avec les devoirs de physique à l'aide de l'outil Circle to Search existant de Google. En encerclant un problème de mot physique affiché sur un Pixel, Samat a montré comment Gemini peut traiter le visuel et fournir des instructions étape par étape sur la façon de le résoudre.
Le tweet a peut-être été supprimé
Les deux sociétés ont partagé d’autres façons dont la multimodalité peut aider les utilisateurs. Zoph a montré les nouvelles capacités de vision de ChatGPT sur l'application de bureau en générant un graphique à partir du code utilisé pour démontrer la conscience contextuelle de GPT-4o. ChatGPT a identifié avec précision que le graphique concernait les données de température au fil du temps et a fourni avec succès une analyse de la signification du graphique.
Le lendemain, à Google I/O, Josh Woodward, vice-président des laboratoires, a démontré comment Notebook LM, le bloc-notes numérique de Google, pouvait extraire des informations d'un manuel de physique open source et les transformer en une conversation de type podcast entre deux robots sur les lois du mouvement de Newton. . Ensuite, Woodward a montré comment il pouvait se lancer dans la conversation comme s'il appelait le podcast et lui demander de personnaliser des exemples pour son fils.
2. L'IA qui est votre amie grâce à la connaissance du contexte
Le message de Google et d'OpenAI portait sur la manière dont l'IA multimodale peut améliorer la vie des gens. « Nous voulons que tout le monde bénéficie de ce que Gemini peut faire », a déclaré Pichai à propos du modèle d'IA phare de Google, Gemini 1.5 Pro. Cela a ouvert la voie à des annonces tout au long de l'événement selon lesquelles les Gémeaux s'intègrent parfaitement dans votre vie grâce à la compréhension du contexte.
Cela n'était nulle part plus clair que dans la démo du Projet Astra. vidéo de Google DeepMind. La technologie, décrite comme un « agent réactif avancé pour voir et parler », répond avec précision à des questions naturellement formulées faisant référence à des visuels qui ne sont pas explicitement mentionnés.
Le testeur pointant l'appareil photo d'un smartphone vers diverses choses, il décrit le code sur un écran de bureau, identifie le concept du chat de Schrödinger qui montre un simple dessin sur tableau blanc représentant le visage d'un chat vivant à côté du visage d'un chat mort et une boîte en carton tenue par le testeur, et propose un nom de groupe pour un tigre en peluche et un (vrai) Golden Retriever. Au fait, le nom du groupe est « Golden Stripes ».
Le tweet a peut-être été supprimé
Sur Android, David Burke, vice-président de l'ingénierie de Google, a montré à quoi ressemble la connaissance du contexte entre les mains des utilisateurs. Burke a montré comment poser des questions spécifiques sur le contenu d'une vidéo YouTube, comme par exemple les règles du Pickleball.
Le tweet a peut-être été supprimé
OpenAI a également fait la démonstration de la compréhension contextuelle. Dans les démos publiées sur le site d'OpenAI, la version audio de GPT-4o « surveillait » ses interlocuteurs humains, notant de manière coquette le sweat-shirt OpenAI d'un démo dans un cas, et faisant des blagues à papa, comprenant le sarcasme et arbitreant un article rock devant la caméra. jeu de ciseaux chez d'autres. Dans une autre démo, du code a été partagé avec ChatGPT, et l'application a montré les capacités audio de GPT-4o en analysant réellement le code, apparemment sans recevoir de description explicite de ce qu'elle était censée faire.
Le projet Astra de Google DeepMind est encore en développement, mais sa compréhension contextuelle sur Android sera déployée auprès des utilisateurs dans les mois à venir. Le mode vocal GPT-4o d'OpenAI n'est pas encore disponible, sans aucun détail sur la date de livraison, selon au PDG Sam Altman.
3. Des assistants IA qui connaissent votre emploi du temps et vos besoins de travail
Le message principal de Google I/O et de l'événement OpenAI était que l'IA peut prendre en charge des tâches de votre vie qui vont du visionnaire au banal, ce qui implique normalement, vous savez, de rechercher quelque chose sur Google ou d'utiliser votre propre cerveau humain. Google est allé encore plus loin avec des appels explicites aux agents, assistants et coéquipiers de l'IA (il y avait beaucoup de termes différents pour les assistants de l'IA disséminés partout, ce qui, franchement, nous sommes encore un peu confus.)
Des exemples de ce que les agents Google pourraient faire incluent l'utilisation de Gemini pour retourner une paire de chaussures en les prenant en photo avec votre téléphone et en invitant l'agent à rechercher le reçu dans votre boîte de réception Gmail, à localiser le numéro de commande, à remplir un formulaire de retour, et planifiez un ramassage. Comme l'a noté Pichai, Google n'en est pas encore là, mais plus concrètement, un panneau latéral Gemini dans l'application mobile Gmail peut résumer les e-mails pertinents ou rédiger des réponses en fonction d'indices contextuels extraits de votre boîte de réception.
Le tweet a peut-être été supprimé
C'est là que Google a le dessus, car l'IA devient beaucoup plus utile lorsqu'elle fonctionne sur différentes applications comme Gmail, Google Calendar et Search. C'est OpenAI qui a lancé cette conversation en parlant de son objectif d'atteindre l'AGI (intelligence générale artificielle) et en faisant référence aux assistants d'IA de science-fiction comme le personnage de Scarlett Johansson dans le film Her. Lors de l'événement OpenAI, le PDG Sam Altman tweeté « elle » dans une référence apparente au film. Mais malgré les aspirations explicites ou implicites d’OpenAI pour ce type de cas d’utilisation, on n’a pas beaucoup parlé des agents d’IA.
Le tweet a peut-être été supprimé
En outre, OpenAI aurait une bataille difficile à mener s’il voulait que les utilisateurs commencent à télécharger leurs documents de travail et leurs calendriers sur leurs comptes ChatGPT. Mais savez-vous ce que proposent les applications de messagerie et de calendrier ? Pomme. Et OpenAI aurait finalisé un partenariat avec le fabricant d'iPhone pour amener ChatGPT sur iOS 18. Et la conférence des développeurs d'Apple, la WWDC, aura lieu dans moins d'un mois.
Le bœuf technologique fait rage et d’autres batailles seront bientôt à venir.