Source: https://arxiv.org/html/2505.06643v1
Le document explore une nouvelle vulnérabilité des modèles de langage de grande taille capables de raisonnement (RLLM), en particulier DeepSeek-R1, où les invites adverses peuvent interrompre le processus de réflexion, conduisant à une réponse vide. Les chercheurs ont identifié un phénomène appelé Débordement de Jeton de Raisonnement (RTO), où les jetons de raisonnement peuvent déborder dans la réponse finale. En exploitant le RTO, ils ont développé une attaque pratique d’interruption de raisonnement nécessitant beaucoup moins de jetons que les méthodes précédentes. Ils ont également démontré comment le RTO peut être utilisé pour une attaque de jailbreak qui expose un contenu dangereux destiné aux seuls jetons de raisonnement.