Utilisateurs de Tumblr, voici ce qu’il faut savoir sur la vente de vos données par Tumblr à OpenAI et MidJourney
La société mère Automattic vendrait du contenu Tumblr à OpenAI et MidJourney pour les données de formation. Voici comment vous pouvez vous désinscrire.
OpenAI et le générateur de photos Midjourney paieront bientôt pour former leurs modèles d’IA à l’aide du contenu public Tumblr, selon des documents internes examinés par le site 404 Media.
404 Media a rapporté qu’un accord était « imminent » entre la société mère de Tumblr, Automattic, et les deux géants de l’IA, mais n’a pas pu préciser quels types de données seraient vendus à chaque société. L’accord comprendrait également la vente de données de WordPress.com, une autre propriété d’Automattic.
Des articles détaillant la manière dont le contenu utilisateur est utilisé pour la formation en IA ont été publiés le 27 février sur les blogs du personnel de Tumblr et WordPress.com. Cependant, les publications n’indiquaient pas aux utilisateurs qu’Automattic était en pourparlers pour vendre ces données.
Voici ce que vous devez savoir sur la façon dont la vente peut affecter votre contenu Tumblr.
Quel contenu Automattic vendrait-il ?
404 Media a signalé que les documents examinés ne précisaient pas les types de données qui seraient vendues à chaque entreprise. On ne sait pas non plus si cet accord affectera uniquement les futures publications sur Tumblr, ou s’il englobera également le contenu passé. Les sociétés d’IA ont été critiquées pour leur utilisation généralisée de contenus « accessibles au public » pour former leurs modèles, car une grande partie de ce qui est accessible au public en ligne est toujours soumise au droit d’auteur.
Selon un article d’assistance sur le site Web d’OpenAI, « ChatGPT et nos autres services sont développés à l’aide d’informations accessibles au public sur Internet », entre autres sources. Apparemment, OpenAI a déjà récupéré et utilisé tout le contenu une fois rendu public sur Tumblr. Compte tenu de cela, l’accord actuel pourrait servir d’une sorte de mea culpa de la part d’OpenAI et de Midjourney, car ils proposent également de payer pour l’utilisation de tout le futur contenu de Tumblr.
Automattic n’a pas répondu aux demandes de commentaires de 404 Media concernant l’accord, mais a publié une déclaration intitulée « Protéger le choix de l’utilisateur » dans laquelle la société a écrit : « Nous bloquons actuellement, par défaut, les principaux robots d’exploration des plateformes d’IA, y compris ceux des plus grandes entreprises technologiques. – et mettre à jour nos listes au fur et à mesure du lancement de nouvelles. » On ne sait pas quand le site a commencé à bloquer les robots d’exploration, ce qui est important étant donné qu’OpenAI entraîne son algorithme sur le contenu public depuis des années.
Comment puis-je me désinscrire ?
Pour refuser de partager votre contenu public Tumblr avec des tiers, vous devrez activer une nouvelle option « Empêcher le partage par des tiers » dans les paramètres de chaque blog que vous gérez. Cela doit être fait sur un navigateur Web, et non via l’application Tumblr. Ces mises à jour ont été ajoutées à l’article d’assistance de Tumblr sur la confidentialité des utilisateurs.
Si vous avez déjà choisi de décourager la recherche sur votre blog par le passé, la nouvelle option « empêcher le partage par des tiers » sera déjà activée par défaut.
Mais que se passe-t-il si vous décidez de renoncer à activer le paramètre maintenant, préférant le faire dans trois mois ? 404 Media a rapporté que, dans un document consulté le 23 février, un membre du personnel de Tumblr avait posé une question sur ce problème. « Avons-nous l’assurance », ont-ils écrit, « que si un utilisateur refuse que ses données soient partagées avec des tiers, nos partenaires de données existants seront informés d’un tel changement et supprimeront leurs données ? »
Le responsable de l’IA d’Automattic, Andrew Spittle, a répondu : « Nous informerons régulièrement les partenaires existants de toute personne qui s’est désinscrite… Je veux que ce soit un processus continu dans lequel nous plaidons régulièrement pour que le contenu passé soit exclu en fonction des préférences actuelles. » Nous demanderons que le contenu soit supprimé et supprimé de toute future formation. Je pense que les partenaires honoreront cela sur la base de nos conversations avec eux jusqu’à présent. «
Est-ce normal?
Cela semble certainement être, à tout le moins, la nouvelle norme. OpenAI octroie des licences pour les reportages d’Associated Press et serait en pourparlers pour faire de même avec CNN, Time et Fox. Reddit travaille avec Google pour monétiser sa base de données de contenu.
Ce n’était qu’une question de temps avant qu’Automattic ne commence à vendre ses propres données, surtout si l’on considère combien d’argent il perd sur Tumblr. Au cours de ses 17 années d’histoire, le site n’a jamais été rentable et Automattic n’a pas réussi à le redresser. En novembre, TechCrunch a signalé que des ressources avaient été détournées du site en difficulté pour soutenir des projets ailleurs au sein d’Automattic.