Trop Gros pour Penser - Transformeurs et Généralisation

Trop Gros pour Penser - Transformeurs et Généralisation

Episode description

Source: https://arxiv.org/abs/2506.09099

La source principale, “Too Big to Think: Capacity, Memorization, and Generalization in Pre-Trained Transformers,” est un article de recherche soumis à arXiv et accepté pour présentation lors d’une conférence. Les auteurs, Joshua Barron et Devin White, examinent la relation complexe entre la mémorisation et la généralisation dans les grands modèles linguistiques (LLM). Ils ont entraîné des modèles Transformer à capacité limitée sur des tâches synthétiques distinctes pour évaluer ces deux aspects du comportement d’apprentissage. Leurs découvertes indiquent un compromis constant où les petits modèles excellent en extrapolation mais échouent en mémorisation, tandis que les modèles plus grands montrent le schéma inverse. En outre, aucun modèle, quelle que soit sa taille, ne parvient à extrapoler lorsqu’il est entraîné simultanément sur les deux types de tâches, suggérant une faveur intrinsèque pour un mode d’apprentissage par rapport à l’autre pendant le pré-entraînement.

Audio File

Download