Reddit présente un outil basé sur l’IA qui détectera le harcèlement en ligne
Le nouveau « filtre contre le harcèlement » est formé sur le contenu précédemment signalé.
Reddit a introduit un filtre de sécurité alimenté par l’IA qui aidera à filtrer les publications contenant du harcèlement ou d’autres contenus répréhensibles.
Le « filtre de harcèlement » — ajouté discrètement à la page d’assistance de la plateforme la semaine dernière et détecté par Android Authority — utilise un modèle de langage large (LLM) « entraîné sur les actions du modérateur et le contenu supprimé par les outils internes et les équipes d’application de Reddit », explique Reddit. L’outil vise à soutenir le travail déjà ténu des modérateurs de Reddit chargés de superviser les communautés en ligne dont ils font partie.
Le mois dernier, Bloomberg a rapporté que Reddit avait signé un accord de licence de contenu avec un « acteur majeur de l’IA », qui offrirait des données de site et d’utilisateur pour former des technologies potentielles en IA.
Lorsqu’une communauté et ses modérateurs activent le filtre, un nouveau drapeau apparaîtra dans la file d’attente des mods du site indiquant le contenu (posts et commentaires) qui a été signalé comme « harcèlement potentiel ». Les modérateurs peuvent alors approuver ou supprimer le contenu et faire rapport. à Reddit s’il a été détecté avec précision.
La plate-forme a introduit une multitude de nouvelles fonctionnalités et d’expériences mises à jour au cours des derniers mois, avant ses débuts en bourse ce mois-ci. L’année dernière, Reddit a annoncé le Modmail Harassment Filter, qui agit comme un dossier « spam » pour les messages du modérateur contenant du contenu potentiellement abusif.
Comment configurer le filtre de harcèlement de Reddit
-
Pour le bureau, accédez à l’onglet À propos de la communauté dans la barre latérale droite et sélectionnez Mod Tools. Pour iOS et Android, cliquez sur le bouton Mod Tools sous la bannière de votre communauté.
-
Allez dans Modération. Cliquez sur Sécurité.
-
Sélectionnez l’option de filtre Harcèlement et activez-la.
-
Choisissez entre les options de filtre Faible ou Élevé. Un filtrage faible bloque la moindre quantité de contenu, mais est plus précis pour détecter le harcèlement. Le filtre élevé effectue un balayage plus large des publications et bloque ainsi davantage de publications. Reddit recommande d’utiliser l’option Élevé si votre communauté est confrontée à une « quantité importante de contenu harcelant ».
Alors que Reddit indique que les administrateurs continueront de supprimer automatiquement les publications qui enfreignent directement la politique de contenu de Reddit, le filtre contre le harcèlement permet aux communautés de surveiller les contenus répréhensibles mais toujours « conformes à la politique » qui pourraient passer entre les mailles du filet.