
Nouvel épisode !
Source : https://arxiv.org/abs/2506.12543
Ce document de recherche explore la différence de performance entre deux algorithmes d’optimisation, Adam et la descente de gradient stochastique (SGD), communément utilisés dans l’entraînement des modèles de langage. Les auteurs réexaminent le “fossé de l’optimiseur” en menant une série d’expériences avec des modèles Transformer. Leurs découvertes empiriques suggèrent que la SGD avec élan peut atteindre des performances similaires à Adam dans des paramètres de petit lot, à condition d’être correctement ajustée. L’article examine également les explications existantes pour l’avantage d’Adam et fournit de nouvelles perspectives sur le rôle de la taille du lot dans la dynamique d’entraînement.