5 façons dont l’IA a changé Internet en 2023
ChatGPT et autres ont été occupés cette année.
C’est difficile à croire, mais ChatGPT n’a qu’un an environ.
Lorsque OpenAI a été lancé pour la première fois, ChatGPT en novembre 2022, elle est devenue l’application à la croissance la plus rapide de tous les temps, a semé la panique au sein de Google et a allumé la mèche d’une course à l’IA générative au sein des Big Tech.
Depuis lors, l’essor de l’IA générative a été qualifié de prochaine révolution industrielle, a soulevé des questions philosophiques et éthiques sur la survie humaine et a amené les gouvernements à prêter attention à son potentiel destructeur. Alors oui, ce fut une année assez importante pour l’IA.
Cela n’est nulle part plus évident que sur Internet. Évidemment, l’IA s’appuie sur Internet, donc pas ça. Mais plutôt notre expérience de l’essor de l’IA générative à travers le prisme du Web : les campagnes alarmistes, les cycles de battage médiatique, les deepfakes viraux, les réflexions sur les menaces existentielles de l’IA, les débats éthiques, les scandales et, enfin et surtout, l’enshittification accélérée du Web aux mains de l’IA. Besoin d’une preuve ? Lorsqu’un modèle d’IA est formé sur les données générées par l’IA, il s’effondre.
Qu’elle soit explicitement mentionnée ou non, l’IA a laissé sa marque partout sur Internet cette année.
L’IA générative en 2023 a été une aventure folle qui nous a vieilli de bien plus d’un an. Nous sommes sûrs que ce sera totalement détendu à partir de maintenant, mais d’abord, jetons un coup d’œil en arrière.
1. A donné à « hallucination » un nouveau sens sans rapport avec la drogue
C’est l’année où tout le monde a appris que les ordinateurs pouvaient aussi avoir des hallucinations – mais pas de manière amusante ou transcendantale. L’hallucination se produit lorsque l’IA générative fabrique ses réponses avec confiance, lui donnant l’illusion de croire quelque chose qui n’est pas vrai.
Les LLM fonctionnent en prédisant de manière probabiliste le mot suivant en fonction de la quantité massive de données sur lesquelles il est formé. Pour cette raison, les hallucinations de l’IA ont souvent un sens linguistique et contiennent parfois des éléments de réalité, ce qui rend difficile la distinction entre les faits et l’absurdité absolue. Ça, ou ça commence à ressembler à ton copain qui trébuche à Burning Man.
Depuis la sortie de ChatGPT, suivi de Bing Chat et Bard, Internet a été inondé de conneries folles selon les chatbots IA – soit de manière spontanée, soit via des jailbreaks. Ils allaient d’inoffensifs et idiots (bien que effrayants) à diffamatoires et nuisibles. Même Google est devenu la proie de son propre chatbot Bard en incluant des informations inexactes dans une vidéo de démonstration. Quoi qu’il en soit, cela a eu pour effet cumulatif de faire en sorte qu’Internet devienne une réalité.
2. Les deepfakes ont été généralisés
Les deepfakes, ou médias modifiés par l’IA pour paraître réels, sont une préoccupation depuis un certain temps. Mais cette année, la large disponibilité des outils d’IA générative a rendu plus facile que jamais la création d’images, de vidéos et d’audio réalistes.
OpenAI DALL-E 3, le générateur d’images Google Bard et SGE, Microsoft Copilot (anciennement Bing Chat Image Creator) et Meta’s Imagine sont tous des exemples de modèles qui utilisent l’IA générative pour créer des images à partir d’invites de texte. Même les plateformes médiatiques Shutterstock, Adobe et Getty Images se sont lancées dans le jeu avec leurs propres outils de génération d’images IA.
Beaucoup de ces services ont mis en place des garde-fous et des restrictions pour lutter contre les responsabilités et les préjudices réels que pose la génération d’images IA. Le filigrane des images en tant que créations de l’IA, le refus de générer des visages photoréalistes ou des rendus de personnalités publiques et l’interdiction des contenus dangereux ou inappropriés sont quelques-uns des moyens utilisés pour empêcher toute utilisation néfaste.
Mais cela n’a pas empêché les gens de trouver une solution. Cette année, une chanson qui ressemblait de manière convaincante à Drake et TheWeeknd a circulé sur les services de streaming musical avant d’être retirée. Grâce à l’IA, Tom Hanks a donné l’impression qu’il faisait la promotion d’un régime de soins dentaires sur Instagram, et la voix et l’image de Scarlett Johansson ont été utilisées pour promouvoir une application d’IA d’annuaire des années 90.
Les deepfakes sont devenus une telle menace pour les personnalités publiques et leurs moyens de subsistance que le Congrès a présenté un projet de loi visant à protéger les artistes contre les répliques de l’IA sans leur consentement. Le décret du président Biden sur l’IA a également abordé la menace des deepfakes en stipulant que tout le contenu généré par l’IA doit être filigrané.
3. Sonné l’alarme concernant les données d’entraînement
Comment les LLM sont-ils devenus si bons ? Ils sont formés sur l’intégralité d’Internet. Tout – publications sur Reddit, publications sur les réseaux sociaux, pages Wikipédia, centaines de milliers de livres piratés, sites d’information, articles universitaires, sous-titres YouTube, blogs culinaires, mèmes – alimente les appétits insatiables des modèles d’IA.
La question de savoir si le grattage d’Internet pour entraîner des modèles d’IA est autorisé est là où les choses deviennent troubles. OpenAI et Google ont tous deux été visés par des recours collectifs intentés par le cabinet d’avocats Clarkson Law Firm pour avoir prétendument « volé » des informations personnelles sans consentement et violé des œuvres protégées par le droit d’auteur. Meta et Microsoft font également face à des poursuites pour avoir entraîné leurs modèles sur la base de données Books3 qui comprenait des livres piratés. (La base de données Books3 a été supprimée en août à la suite d’une plainte DMCA.)
Dans un cas de violation plus flagrante du droit d’auteur, l’auteur Jane Friedman a découvert une cache de livres générés par l’IA et écrits à son nom en vente sur Amazon.
Certains affirment que l’utilisation de données accessibles au public sur Internet constitue une utilisation équitable. D’autres affirment que les lois sur la confidentialité et les droits d’auteur n’ont pas été rédigées dans un esprit d’apprentissage automatique sophistiqué et devraient être mises à jour. Tout le monde convient qu’il s’agit d’une question très complexe qui n’a pas encore été résolue.
4. Nous a présenté le contenu généré par l’IA
L’une des capacités étonnantes de l’IA générative consiste à écrire un langage à consonance naturelle. Actuellement, la plupart des contenus générés par l’IA se lisent comme ceux d’un lycéen qui n’a pas fait toute la lecture – sujet aux inexactitudes et légèrement robotique. Mais avec le temps, les LLM s’améliorent, rendant l’automatisation des articles, des communiqués de presse, des offres d’emploi, des travaux créatifs et bien plus encore, trop tentante pour beaucoup de gens.
Mais les premières tentatives visant à présenter aux consommateurs du contenu généré par l’IA ont rencontré des réactions négatives considérables. CNET a rendu furieux le personnel et les lecteurs en publiant discrètement des articles générés par l’IA (dont beaucoup étaient inexacts). Gizmodo a été surpris en train de publier une histoire inexacte générée par l’IA sur Star Wars et Sports Illustrated a simplement inventé un auteur qui ne semble pas exister.
Ailleurs sur Internet, Meta a misé tout sur l’IA générative en nous présentant des « Personas » basées sur des célébrités, mais il ne s’agit pas réellement de personnalités de haut niveau – et développe des outils publicitaires pour créer des publicités générées par l’IA.
Même l’industrie musicale s’y met. Le label UMG, qui représente Drake, explorerait un moyen de vendre les voix des musiciens pour générer de la musique IA et partager les frais de licence avec l’artiste. Contrairement à Drake, qui a été falsifié par l’IA cette année et s’est prononcé contre l’utilisation de l’IA pour recréer leurs voix, certains artistes comme Grimes y voient une nouvelle façon de collaborer avec leurs fans et partagent les redevances des créations de l’IA avec leurs fans.
Si le contenu généré par l’IA est là pour rester, la vraie question est alors de savoir qui profite du contenu généré par l’IA – et aux dépens de qui ?
5. Promis de changer notre rapport au travail
La promesse d’une productivité accrue au travail a été un argument de vente majeur pour les entreprises technologiques qui ont lancé des outils d’IA cette année. Microsoft, Google, Zoom, Slack, Grammarly et d’autres ont tous vanté la capacité de l’IA générative à réduire les tâches en une fraction du temps.
Mais comme ces outils en sont encore à leurs balbutiements, et que beaucoup d’entre eux sont en phase pilote ou uniquement disponibles pour les clients payants, les effets à grande échelle ne sont pas encore visibles.
Ce que nous savons, c’est que les outils d’IA générative pour le travail ne sont pas fiables – du moins pas sans surveillance humaine, ce qui met en quelque sorte à mal toute la promesse de productivité. Vous devez absolument revérifier leurs réponses et vous devez faire attention à ce que vous partagez avec des LLM comme ChatGPT. Samsung l’a découvert à ses dépens lorsque ses employés ont partagé par inadvertance des informations exclusives avec ChatGPT, ignorant que leurs entrées étaient potentiellement utilisées pour entraîner le modèle.
Finalement, OpenAI a publié une fonctionnalité qui permettait aux utilisateurs de refuser de partager leurs données avec ChatGPT et a introduit des versions adaptées aux entreprises pour assurer la sécurité des transactions commerciales, à moins bien sûr qu’il y ait une violation de données.