Les principaux modèles d'IA sont facilement jailbreakés et manipulés, selon un nouveau rapport

Date de publication :

Publié il y a 11 mois

20 mai 2024

Par

Les principaux modèles d'IA sont facilement jailbreakés et manipulés, selon un nouveau rapport

Les modèles facilement jailbreakés montrent que les protections échouent.

Les modèles d’IA restent des cibles faciles pour la manipulation et les attaques, surtout si vous leur demandez gentiment.

Un nouveau rapport du nouvel AI Safety Institute du Royaume-Uni a révélé que quatre des plus grands modèles de langage étendus (LLM) accessibles au public étaient extrêmement vulnérables au jailbreak, ou au processus consistant à tromper un modèle d'IA pour qu'il ignore les garanties qui limitent les réponses nuisibles.

« Les développeurs de LLM affinent les modèles pour qu'ils soient sûrs pour un usage public en les formant à éviter les sorties illégales, toxiques ou explicites », a écrit l'Institut. « Cependant, les chercheurs ont découvert que ces mesures de protection peuvent souvent être surmontées par des attaques relativement simples. À titre d'exemple illustratif, un utilisateur peut demander au système de commencer sa réponse par des mots suggérant de se conformer à la requête nuisible, tels que 'Bien sûr, je'. Je suis heureux de vous aider.' »

Les chercheurs ont utilisé des invites conformes aux tests de référence standard de l'industrie, mais ont découvert que certains modèles d'IA n'avaient même pas besoin d'être jailbreakés pour produire des réponses hors ligne. Lorsque des attaques de jailbreak spécifiques étaient utilisées, chaque modèle s’y conformait au moins une fois sur cinq tentatives. Dans l’ensemble, trois des modèles ont fourni des réponses à des invites trompeuses dans près de 100 % du temps.

« Tous les LLM testés restent très vulnérables aux jailbreaks de base », a conclu l'Institut. « Certains fourniront même des résultats nuisibles sans tentatives spécifiques pour contourner les mesures de protection. »

L’enquête a également évalué les capacités des agents LLM, ou modèles d’IA utilisés pour effectuer des tâches spécifiques, à mettre en œuvre des techniques de base de cyberattaque. Plusieurs LLM ont été capables de résoudre ce que l'Institut a qualifié de problèmes de piratage de « niveau secondaire », mais peu d'entre eux étaient capables d'effectuer des actions plus complexes de « niveau universitaire ».

L’étude ne révèle pas quels LLM ont été testés.

La sécurité de l’IA reste une préoccupation majeure en 2024

La semaine dernière, CNBC a annoncé qu'OpenAI dissolvait son équipe de sécurité interne chargée d'explorer les risques à long terme de l'intelligence artificielle, connue sous le nom d'équipe Superalignment. L'initiative prévue sur quatre ans a été annoncée l'année dernière, le géant de l'IA s'engageant à utiliser 20 % de sa puissance de calcul pour « aligner » les progrès de l'IA sur les objectifs humains.

« La superintelligence sera la technologie la plus impactante que l'humanité ait jamais inventée et pourrait nous aider à résoudre bon nombre des problèmes les plus importants du monde », écrivait alors OpenAI. « Mais le vaste pouvoir de la superintelligence pourrait également être très dangereux et conduire à la perte de pouvoir de l'humanité, voire à son extinction. »

L'entreprise a fait face à un regain d'attention suite aux départs en mai du co-fondateur d'OpenAI, Ilya Sutskever, et à la démission publique de son responsable de la sécurité, Jan Leike, qui a déclaré avoir atteint un « point de rupture » sur les priorités de sécurité AGI d'OpenAI. Sutskever et Leike ont dirigé l'équipe Superalignment.

Le 18 mai, Sam Altman, PDG d'OpenAI, et Greg Brockman, président et co-fondateur, ont répondu aux démissions et à l'inquiétude croissante du public en écrivant : « Nous avons mis en place les bases nécessaires au déploiement sûr de systèmes de plus en plus performants. une nouvelle technologie sûre pour la première fois n'est pas facile.

Article suivant

C'est le premier jour des soldes d'été Discover Samsung

Article précédent

Les meilleures offres de la Journée nationale du streaming : Roku réduit les abonnements à Starz et Cinemax à seulement 99 cents pour deux mois

Pierre Challon

Pierre, plus connu sous son pseudonyme "Pierrot le Fou", est un rédacteur emblématique du site Indigo Buzz. Originaire d'une petite ville du sud-ouest du Gers, cet aventurier des temps modernes est né sous le signe de l'ombre en 1986 au sommet d'une tour esotérique. Élevé dans une famille de magiciens-discount, il a développé un goût prononcé pour l'excentricité et la magie des mots dès son plus jeune âge. Pierre a commencé sa carrière de rédacteur dans un fanzine local dédié aux films d'horreur des années 80, tout en poursuivant des études de communication à l'Université de Toulouse. Passionné par l'univers du web, il a rapidement pris conscience de l'impact du numérique et des réseaux sociaux sur notre société. C'est alors qu'il a décidé de troquer sa collection de cassettes VHS contre un ordinateur flambant neuf... enfin presque.