Source : https://arxiv.org/abs/2506.03077 Ce document présente StreamBP, une nouvelle méthode de rétropropagation conçue pour rendre l’entraînement des grands modèles linguistiques (LLM) sur de longues séquences de données plus efficace en termes de mémoire. Les auteurs expliquent que la rétropropagation pour les LLM nécessite une quantité importante de mémoire pour stocker les valeurs d’activation, même avec les techniques existantes. StreamBP aborde ce problème en utilisant une décomposition linéaire de la règle de chaîne, réduisant considérablement les coûts de mémoire tout en maintenant la précision du calcul. La recherche affirme que StreamBP peut étendre la longueur maximale de séquence de 2,8 à 5,5 fois par rapport aux méthodes précédentes, offrant ainsi des gains de vitesse comparables ou supérieurs.