Le GPT-4 d’OpenAI a réussi tous ses examens – à l’exception de ceux-ci
Ses parents doivent être si fiers.
Juste au moment où vous avez commencé à accepter les capacités étranges de ChatGPT, OpenAI a abandonné une nouvelle version de son modèle de langage AI.
OpenAI dit que GPT-4 est beaucoup plus avancé que GPT-3, qui alimente ChatGPT. Et pour le prouver, ils ont fait passer GPT-4 à un tas d’examens. OpenAI a testé GPT-4 avec une variété de tests standardisés allant du lycée au diplôme au niveau professionnel et couvrant les mathématiques, les sciences, le codage, l’histoire, la littérature et même celui que vous passez pour devenir sommelier. Les examens étaient composés de questions à choix multiples et de questions à réponse libre et GPT-4 a été noté en utilisant la méthodologie standard pour chaque examen.
Posez votre crayon, GPT-4, il est temps de voir vérifier vos scores.
Quoi, comme l’école de droit c’est dur ?
GPT-4 n’est pas seulement entré à la faculté de droit, il a passé le barreau. Le modèle linguistique de l’IA a obtenu un score dans le 88e centile aux LSAT (test d’admission à la faculté de droit) et a fait encore mieux au barreau (examen uniforme du barreau) en obtenant un score dans le 90e centile. En comparaison, GPT-3 se situait dans les 40 % inférieurs des LSAT et 10 % dans la barre.
Les tests d’admission à l’université étaient un jeu d’enfant
GPT-4 a pris à la fois les sections mathématiques et lecture / écriture des SAT et les trois sections des GRE qui sont décomposées en compétences quantitatives, verbales et écrites. Il a obtenu un score dans le 80e ou le 90e centile de toutes les sections, à l’exception de la section d’écriture des GRE… qu’il a en quelque sorte bombardé au 54e centile.
Le surperformant par excellence, GPT-4 a également passé tous les examens du lycée AP (Advanced Placement). Il a réussi la plupart d’entre eux, marquant entre le 84e et le 100e, à l’exception de quelques valeurs aberrantes.
GPT-4 a obtenu le 44e rang en langue anglaise AP et un maigre 22e en littérature anglaise AP. Donc, tous les forgerons de mots auront peut-être plus de temps avant que GPT-4 ne vous remplace. GPT-4 n’a pas fait si chaud sur AP Calculus BC marquant entre 43e et 59e, prouvant que même pour un supercalculateur, le calcul n’est pas facile. Mais cela rapporte toujours au GPT-4 un quatre, donc il pourrait toujours sortir du calcul universitaire.
GPT-4 a du travail de codage à faire
GPT-4 a encore du travail à faire avec ses compétences en codage, ce qui est curieux puisque l’une de ses utilisations commercialisées est d’aider les développeurs. Sa note pour Codeforces, qui héberge des événements de programmation compétitifs, est de 392, ce qui le place dans la catégorie Débutant de tout ce qui est inférieur à 1199.
Il a plutôt bien fonctionné au niveau facile du Leetcode (31 problèmes résolus sur 41) mais a eu du mal en ce qui concerne le niveau de difficulté moyen ou difficile (respectivement 21/80 et 3/45). Comme nous l’avons vu dans le livestream de la démo du développeur, GPT-4 est tout à fait capable d’écrire Python, mais a nécessité quelques ajustements manuels pour définir les bons paramètres, ce qui pourrait expliquer certains de ces résultats de test. Ou peut-être qu’il n’a pas déjeuné ce matin-là.
Ok, mais GPT-4 peut-il devenir sommelier ?
GPT-4 a réussi les examens de sommelier avec brio. Il s’est classé le plus bas (77e centile) à l’examen de sommelier le plus avancé. Mais pour une entité non-humaine qui n’a jamais goûté de vin, nous laisserons cela glisser.
OpenAI a publié une ventilation complète de la performance de GPT-4. GPT-4 n’a peut-être pas encore écrit le prochain grand roman américain, mais l’avenir de GPT-4 en tant qu’avocat mathématiquement brillant et connaisseur de vin semble plutôt brillant.