OpenAI lance le webcrawler GPTBot et des instructions pour le bloquer

Date de publication :

Publié il y a 2 ans

8 août 2023

Par

Pierre Challon

OpenAI lance le webcrawler GPTBot et des instructions pour le bloquer

Les sites Web peuvent choisir de se retirer.

OpenAI a lancé un robot d’exploration Web pour améliorer les modèles d’intelligence artificielle comme GPT-4.

Appelé GPTBot, le système passe au peigne fin Internet pour former et améliorer les capacités de l’IA. L’utilisation de GPTBot a le potentiel d’améliorer les modèles d’IA existants en ce qui concerne des aspects tels que la précision et la sécurité, selon un article de blog d’OpenAI.

« Les pages Web explorées avec l’agent utilisateur GPTBot peuvent potentiellement être utilisées pour améliorer les futurs modèles et sont filtrées pour supprimer les sources qui nécessitent un accès au mur payant, sont connues pour recueillir des informations personnellement identifiables (PII) ou contiennent du texte qui enfreint nos politiques », lit le poste.

Cependant, les sites Web peuvent choisir de restreindre l’accès au robot d’exploration Web et d’empêcher GPTBot d’accéder à leurs sites, soit partiellement, soit en se désactivant entièrement. OpenAI a déclaré que les opérateurs de sites Web peuvent interdire le crawler en bloquant son adresse IP ou sur le fichier Robots.txt d’un site.

Auparavant, OpenAI a atterri dans l’eau chaude pour la façon dont il collecte des données et pour des choses comme la violation du droit d’auteur et les atteintes à la vie privée. En juin dernier, la plate-forme d’IA a été poursuivie pour avoir « volé » des données personnelles pour former ChatGPT.

Ses fonctions de désactivation n’ont été mises en œuvre que récemment, avec des fonctionnalités telles que la désactivation de l’historique des discussions permettant aux utilisateurs de mieux contrôler les données personnelles accessibles.

ChatGPT 3.5 et 4 ont été formés sur des données et des textes en ligne datant de septembre 2021. Il n’existe actuellement aucun moyen de supprimer du contenu de cet ensemble de données.

Comment empêcher GPTBot d’utiliser le contenu de votre site Web

Selon OpenAI, vous pouvez interdire GPTBot en l’ajoutant au Robots.txt de votre site, qui est essentiellement un fichier texte qui indique aux robots Web ce à quoi ils peuvent ou ne peuvent pas accéder à partir d’un site Web.

Vous pouvez également personnaliser les parties qu’un robot d’exploration Web peut utiliser, en autorisant certaines pages et en en interdisant d’autres.

Le code permettant d'interdire ou d'autoriser GPTBot à partir des pages de votre site.

Article suivant

TikTok annonce son premier concours musical

Article précédent

Zoom pourrait utiliser vos appels et vos données pour entraîner l’IA

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.