🤫 Détournement des gardes fous LLMs (attaques via RAG)

May 19, 2025

• 6min 44s

Episode description

Cette publication universitaire présente MutedRAG, une nouvelle attaque par déni de service ciblant les systèmes RAG (Retrieval-Augmented Generation). L’attaque exploite les mécanismes de sécurité intégrés des grands modèles linguistiques (LLM) en injectant des instructions “jailbreak” minimales dans la base de connaissances, déclenchant ainsi intentionnellement les garde-fous des LLM. Ce déclenchement amène le système RAG à refuser de répondre aux requêtes légitimes de l’utilisateur. Les auteurs comparent MutedRAG aux attaques d’empoisonnement de données existantes et démontrent son efficacité et son efficience supérieures à travers diverses expériences, tout en évaluant la capacité des défenses actuelles à atténuer cette nouvelle menace.

Audio File

Download

No transcript available for this episode.

Episode description

Audio File

Persons