Google annonce Gemini 1.5, une mise à niveau flashy de son modèle phare d’IA
Il peut être déclenché par des quantités de texte vraiment massives.
Google vient d’annoncer (mais non publié) Gemini 1.5, une mise à jour de son modèle de langage phare – le modèle utilisé dans le chatbot autrefois connu sous le nom de Bard, mais renommé de manière synergique Gemini il y a une semaine.
La grande revendication de cette version est « une percée dans la compréhension du contexte long à travers les modalités ». Il est également censé constituer une avancée en termes d’efficacité, car il a été construit sur un type d’architecture connu sous le nom de « Mixture-of-Experts (MoE) », ce qui signifie des performances censées s’apparenter à celles de Gemini 1.0, mais s’appuyant sur moins de GPU gourmands en électricité. se lancer pour y parvenir.
Cette première grande affirmation sur la compréhension multimodale du « contexte long » est aussi jargonnelle qu’elle en a l’air, mais le co-fondateur de Google Deepmind a publié une démo sur X destinée à montrer ce que cela signifie dans la pratique.
Le tweet a peut-être été supprimé
Utilisant intelligemment un gros morceau de texte du domaine public qui ne gênera aucun défenseur des droits d’auteur – dans ce cas, une transcription de 402 pages de la mission de la NASA qui a atterri sur la lune – le LLM est capable de se concentrer sur ce dont l’utilisateur a besoin. (« contexte ») bien que l’invite soit absolument gigantesque (« longue »), donc apparemment c’est ce que signifie « contexte long ».
Dans la démo, Gemini 1.5 est capable de sélectionner trois moments amusants à partir du texte d’un roman. Il est également capable de repérer l’événement dans la transcription qui correspond à une image d’une empreinte de botte lunaire – la partie où, vous savez, Neil Armstrong marche sur la lune – ce qui explique ce que « multimodal » est censé signifier dans ce contexte : un modèle de reconnaissance d’images travaillant main dans la main avec le LLM.
Cette mise à niveau fait partie d’un effort continu visant à maintenir Google dans la conversation sur l’IA après qu’OpenAI ait mangé le déjeuner de tout le monde sur l’IA en 2022 en lançant ChatGPT. À la fin de l’année dernière, Google a commencé à vanter sérieusement les changements à venir avec Bard et le modèle qui l’alimente, qui reste également un grand modèle de langage, plus connu pour être intégré dans les produits populaires de Google et Android que pour être utilisé comme ChatGPT pour résoudre des problèmes courants. problèmes d’aujourd’hui et époustouflants lors des cocktails. En particulier, un document de recherche de décembre 2023 vantait une version de Gemini qui avait dépassé les performances du modèle GPT-4 d’OpenAI dans certains cas, et était devenue le premier LLM à obtenir une note de passage à un test d’IA spécifique de « Compréhension du langage multitâche » ou MLU.
Entre autres affirmations concernant Gemini 1.5, Google affirme que le nouveau modèle peut analyser de grands ensembles de données avec une précision impressionnante et – dans une affirmation un peu plus sournoise – fonctionne bien pour raisonner sur toutes sortes de types de données. Le raisonnement est la faiblesse la plus connue de la plupart des LLM.
Selon le PDG Sundar Pichai, Google propose Gemini 1.5 à un groupe limité. « Nous sommes ravis d’offrir un aperçu limité de cette fonctionnalité expérimentale aux développeurs et aux entreprises clientes », a écrit Pichai dans le blog de Google.
La base plus large des utilisateurs de Gemini sera le juge ultime des performances de Google lorsqu’ils seront effectivement autorisés à essayer Gemini 1.5 dans le cadre d’un produit officiellement lancé. Le modèle le plus puissant de Google, Gemini Ultra, est sorti il y a une semaine, cela prendra donc peut-être un certain temps, et il est probablement prudent de supposer que Gemini 1.5 fera un jour partie du nouveau package premium de Google – en d’autres termes « payant » – de Workspace. produits appelés Google One AI Premium.