

Source: https://arxiv.org/abs/2506.17219
Le document explore la rétroaction interne pour le raisonnement des grands modèles linguistiques (LLM), un nouveau domaine de recherche en apprentissage automatique. Les auteurs analysent le Reinforcement Learning from Internal Feedback (RLIF), une méthode qui utilise des signaux dérivés du modèle plutôt que des récompenses externes pour améliorer les performances des LLM. Bien que le RLIF puisse initialement améliorer le raisonnement des LLM de base, les performances se dégradent avec la progression de l’entraînement et l’approche montre peu d’avantages pour les modèles déjà réglés. L’article fournit une analyse théorique et des évaluations empiriques sur des benchmarks mathématiques, offrant des lignes directrices pratiques pour l’intégration de la rétroaction interne dans la formation des LLM.