Uh-oh, l'IA Grok de X peut désormais « comprendre » les images
Le nouveau Grok « Vision » sera disponible pour les testeurs et certains utilisateurs.
Le chatbot IA d'Elon Musk peut désormais « comprendre » les images, y compris les diagrammes et les graphiques truffés d'informations. Désolé, tout le monde n'utilise-t-il pas la plateforme autrefois connue sous le nom de Twitter pour la recherche multidisciplinaire et l'optimisation de ses flux de travail ?
Présenté sous le nom de Grok-1.5V — ou Grok 1.5 « Vision », le « modèle multimodal de première génération » de l'entreprise — le robot sera capable non seulement de répondre à vos images et captures d'écran téléchargées, mais également de raisonner à travers des documents complexes, des diagrammes scientifiques et des graphiques. , captures d'écran et photographies, indique la société. De plus, Grok-1.5V acquerra une « compréhension spatiale du monde réel » pour mieux comprendre le monde physique représenté dans les images téléchargées par ses utilisateurs.
« Faire progresser à la fois notre compréhension multimodale et nos capacités de génération est une étape importante dans la création d'une AGI bénéfique capable de comprendre l'univers », a écrit la société dans son communiqué. « Dans les mois à venir, nous prévoyons d'apporter des améliorations significatives aux deux capacités, dans diverses modalités telles que les images, l'audio et la vidéo. »
Des exemples de cas d'utilisation incluent la traduction d'un diagramme en code Python, la transformation du dessin d'un enfant en une histoire de chambre à coucher, l'identification du plus grand objet parmi un groupe de plusieurs et l'indication à un conducteur s'il dispose de suffisamment d'espace pour contourner un obstacle.
Grok-1.5V est publié avec RealWorldQA de xAI, un ensemble de données d'images et d'invites conçu pour tester d'autres modèles GenAI par rapport au raisonnement réel de Grok.
Le tweet a peut-être été supprimé
Mais la concurrence est le moindre des soucis de Grok. Malgré l'investissement continu de xAI, Grok n'est pas encore resté fidèle aux premiers utilisateurs et au personnel : un nouveau rapport allègue que ses propres développeurs ont du mal à utiliser la lente API xAI. Ce même rapport, publié par Fortune cette semaine, a souligné les inquiétudes des employés de X concernant le fait que Musk suggère à Grok d'écrire des messages d'utilisateurs payants pour eux, malgré les avertissements des développeurs et du personnel. La semaine dernière, Grok a été critiqué pour avoir généré de faux titres d’informations provenant d’une réalité alternative où l’Iran avait attaqué Tel Aviv avec un arsenal militaire – ce n’était pas la première fois.
Alors que les chatbots GenAI hallucinent les réalités et génèrent de fausses nouvelles, la gaffe de Grok est révélatrice d'un autre problème à l'échelle du site. Le bot, qui correspond à la réponse de Musk à ChatGPT, s'intègre dans une plate-forme qui a lentement réduit ses défenses contre l'IA qui a mal tourné. Combiné avec la mauvaise réputation de X en matière de modération et le refus du PDG lui-même de lutter contre la désinformation au profit des « journalistes citoyens » du site, Grok occupe une place précaire dans l’écosystème d’information assiégé de la plateforme.
Grok-1.5V sera bientôt disponible pour les premiers testeurs et certains utilisateurs.