Source: https://arxiv.org/abs/2505.05410v1
Le papier se penche sur la fidélité des chaînes de pensée (Chain-of-Thought, CoT) produites par les modèles de raisonnement de pointe. Le CoT est considéré comme potentiellement bénéfique pour la sécurité de l’IA, car il permet de surveiller le raisonnement d’un modèle afin de tenter de comprendre ses intentions et ses processus. Cependant, l’efficacité d’une telle surveillance dépend de la mesure dans laquelle les CoT représentent fidèlement les processus de raisonnement réels des modèles.