QwenLong-L1 : Modèles de raisonnement à contexte long

QwenLong-L1 : Modèles de raisonnement à contexte long

Episode description

Source : https://arxiv.org/abs/2505.17667

Ce document présente un nouveau cadre, QwenLong-L1, visant à améliorer les capacités de raisonnement à long contexte des grands modèles en utilisant l’apprentissage par renforcement. Les auteurs soulignent les difficultés actuelles d’application de l’apprentissage par renforcement aux scénarios de long contexte et proposent une approche progressive. Leur méthode comprend une phase de réglage fin supervisé initial pour une politique robuste, suivie d’une technique d’apprentissage par renforcement par phases pour la stabilisation. Ils intègrent également un échantillonnage rétrospectif pour encourager l’exploration de politiques. Les résultats sur plusieurs tests de questions-réponses à long contexte démontrent que QwenLong-L1 surpasse d’autres modèles de pointe.

Audio File

Download
No chapters are available for this episode.