Attaques d'interruption de raisonnement pratiques

May 21, 2025

• 7min 37s

Episode description

Source: https://arxiv.org/html/2505.06643v1

Le document explore une nouvelle vulnérabilité des modèles de langage de grande taille capables de raisonnement (RLLM), en particulier DeepSeek-R1, où les invites adverses peuvent interrompre le processus de réflexion, conduisant à une réponse vide. Les chercheurs ont identifié un phénomène appelé Débordement de Jeton de Raisonnement (RTO), où les jetons de raisonnement peuvent déborder dans la réponse finale. En exploitant le RTO, ils ont développé une attaque pratique d’interruption de raisonnement nécessitant beaucoup moins de jetons que les méthodes précédentes. Ils ont également démontré comment le RTO peut être utilisé pour une attaque de jailbreak qui expose un contenu dangereux destiné aux seuls jetons de raisonnement.

Audio File

Download

No transcript available for this episode.

Episode description

Audio File

Persons