OpenAI est poursuivi pour avoir entraîné ChatGPT avec des données personnelles « volées »

Le cabinet d’avocats accuse OpenAI d’utiliser vos données sans consentement.
Un cabinet d’avocats californien a déposé un recours collectif contre OpenAI pour avoir « volé » des données personnelles pour former ChatGPT.
Clarkson Law Firm, dans une plainte déposée mercredi auprès du tribunal du district nord de Californie, allègue que ChatGPT et Dall-E « utilisent des informations privées volées, y compris des informations personnellement identifiables, auprès de centaines de millions d’internautes, y compris des enfants de tous âges, sans leur consentement éclairé ou leur connaissance. » Pour former son grand modèle de langage, OpenAI a récupéré 300 milliards de mots sur Internet, y compris des informations personnelles et des publications de sites de médias sociaux comme Twitter et Reddit. Le cabinet d’avocats affirme qu’OpenAI « l’a fait en secret et sans s’enregistrer en tant que courtier de données comme il était tenu de le faire en vertu de la loi applicable ».
OpenAI a fait l’objet d’une controverse sur la manière et les données qu’il collecte pour former et développer davantage ChatGPT. Jusqu’à récemment, les utilisateurs n’avaient aucun moyen explicite de refuser de laisser OpenAI utiliser leurs conversations et leurs informations personnelles pour alimenter le modèle. ChatGPT a été initialement interdit en Italie, en utilisant le Règlement général européen sur la protection des données (RGPD), pour protection inadéquate des données des utilisateurs, en particulier lorsqu’il s’agit de mineurs. Ce procès inclut les politiques de confidentialité opaques d’OpenAI pour les utilisateurs existants, mais se concentre en grande partie sur les données extraites du Web qui n’ont jamais été explicitement destinées à être partagées avec ChatGPT. Grâce à des investissements d’un milliard de dollars de Microsoft et aux revenus des abonnés pour ChatGPT Plus, OpenAI a profité de ces données sans compenser sa source.
Les 15 chefs d’accusation de la plainte incluent la violation de la vie privée, la négligence pour ne pas avoir protégé les données personnelles et le vol en obtenant illégalement des quantités massives de données personnelles pour former ses modèles. Les ensembles de données comme Common Crawl, Wikipedia et Reddit, qui incluent des informations personnelles, sont accessibles au public tant que les entreprises suivent les protocoles d’achat et d’utilisation de ces données. Mais OpenAI aurait utilisé ces données sans autorisation ni consentement des utilisateurs dans le cadre de ChatGPT. Même si les informations personnelles des personnes sont publiques sur les sites de médias sociaux, les blogs et les articles, si les données sont utilisées en dehors de la plate-forme prévue, cela peut être considéré comme une violation de la vie privée.
En Europe, il existe une distinction juridique entre le domaine public et les données libres d’utilisation grâce à la loi GDRP, mais aux États-Unis, cela reste à débattre. Nader Henein, vice-président de la recherche sur la confidentialité chez Gartner, qui pense que le sentiment du procès est valable, a déclaré: « Les gens devraient avoir le contrôle sur la façon dont leurs données sont utilisées, même lorsqu’elles sont disponibles dans le domaine public. » Mais Henein ne sait pas si le système juridique américain serait d’accord.
Ryan Clarkson, associé directeur, a déclaré dans le blog de l’entreprise, il est essentiel d’agir maintenant avec les lois existantes au lieu d’attendre que les branches exécutive et judiciaire répondent avec la réglementation fédérale. « Nous ne pouvons pas nous permettre de payer le coût des résultats négatifs avec l’IA comme nous l’avons fait avec les médias sociaux ou comme nous l’avons fait avec le nucléaire. En tant que société, le prix que nous paierions tous est beaucoup trop élevé. »
