ProRL _ L'Apprentissage Prolongé Élargit le Raisonnement des LLM

ProRL _ L'Apprentissage Prolongé Élargit le Raisonnement des LLM

Episode description

Source : https://arxiv.org/pdf/2505.24864

Ces textes présentent ProRL, une nouvelle méthode d’apprentissage par renforcement (RL) conçue pour entraîner les grands modèles linguistiques sur des périodes prolongées, afin d’étendre leurs capacités de raisonnement. La méthode intègre le contrôle de la divergence KL et des réinitialisations périodiques pour assurer la stabilité de l’entraînement sur une variété de tâches. Les auteurs montrent que ProRL permet aux modèles, comme Nemotron-Research-Reasoning-Qwen-1.5B, de découvrir de nouvelles stratégies de raisonnement, surpassant les modèles de base sur diverses évaluations et même sur des tâches hors distribution. Les résultats suggèrent que l’amélioration du raisonnement grâce au RL est plus significative sur les tâches où le modèle de base est initialement moins performant et qu’un entraînement prolongé peut conduire à des modèles plus créatifs générant de nouvelles solutions.

Audio File

Download
No chapters are available for this episode.