

Source: https://arxiv.org/abs/2506.09677
Cette recherche explore la vulnérabilité des modèles de raisonnement avancés aux “prompts de négation de gaslighting”, qui sont des entrées utilisateur trompeuses. Les auteurs évaluent des modèles de pointe comme OpenAI’s o4-mini, Claude-3.7-Sonnet et Gemini-2.5-Flash sur trois benchmarks multimodaux, révélant une baisse d’exactitude significative (25-29%) face à ces manipulations. Pour approfondir cette faiblesse, ils introduisent GaslightingBench-R, un nouveau benchmark diagnostique qui provoque des échecs encore plus dramatiques, avec des chutes d’exactitude dépassant 53%. Les résultats de l’étude soulignent des lacunes fondamentales dans la robustesse des modèles de raisonnement, mettant en évidence un écart entre le raisonnement étape par étape et la persistance de la “croyance” correcte.