Taille de lot_ Clé de l'écart Adam-SGD_

Taille de lot_ Clé de l'écart Adam-SGD_

Episode description

Source : https://arxiv.org/abs/2506.12543

Ce document de recherche explore la différence de performance entre deux algorithmes d’optimisation, Adam et la descente de gradient stochastique (SGD), communément utilisés dans l’entraînement des modèles de langage. Les auteurs réexaminent le “fossé de l’optimiseur” en menant une série d’expériences avec des modèles Transformer. Leurs découvertes empiriques suggèrent que la SGD avec élan peut atteindre des performances similaires à Adam dans des paramètres de petit lot, à condition d’être correctement ajustée. L’article examine également les explications existantes pour l’avantage d’Adam et fournit de nouvelles perspectives sur le rôle de la taille du lot dans la dynamique d’entraînement.

Audio File

Download
No transcript available for this episode.