Vulnérabilité des modèles de raisonnement au gaslighting

Jun 13, 2025

• 4min 47s

Episode description

Source: https://arxiv.org/abs/2506.09677

Cette recherche explore la vulnérabilité des modèles de raisonnement avancés aux “prompts de négation de gaslighting”, qui sont des entrées utilisateur trompeuses. Les auteurs évaluent des modèles de pointe comme OpenAI’s o4-mini, Claude-3.7-Sonnet et Gemini-2.5-Flash sur trois benchmarks multimodaux, révélant une baisse d’exactitude significative (25-29%) face à ces manipulations. Pour approfondir cette faiblesse, ils introduisent GaslightingBench-R, un nouveau benchmark diagnostique qui provoque des échecs encore plus dramatiques, avec des chutes d’exactitude dépassant 53%. Les résultats de l’étude soulignent des lacunes fondamentales dans la robustesse des modèles de raisonnement, mettant en évidence un écart entre le raisonnement étape par étape et la persistance de la “croyance” correcte.

Audio File

Download

No chapters are available for this episode.

Episode description

Audio File

Persons