Attaques d'interruption de raisonnement pratiques

Attaques d'interruption de raisonnement pratiques

Episode description

Source: https://arxiv.org/html/2505.06643v1

Le document explore une nouvelle vulnérabilité des modèles de langage de grande taille capables de raisonnement (RLLM), en particulier DeepSeek-R1, où les invites adverses peuvent interrompre le processus de réflexion, conduisant à une réponse vide. Les chercheurs ont identifié un phénomène appelé Débordement de Jeton de Raisonnement (RTO), où les jetons de raisonnement peuvent déborder dans la réponse finale. En exploitant le RTO, ils ont développé une attaque pratique d’interruption de raisonnement nécessitant beaucoup moins de jetons que les méthodes précédentes. Ils ont également démontré comment le RTO peut être utilisé pour une attaque de jailbreak qui expose un contenu dangereux destiné aux seuls jetons de raisonnement.

Audio File

Download
No transcript available for this episode.