Source: https://arxiv.org/html/2506.20480v1
Ce texte présente GPTailor, une méthode innovante de compression pour les grands modèles linguistiques (LLM). Contrairement aux approches traditionnelles qui élaguent un modèle unique, GPTailor combine et fusionne stratégiquement des couches provenant de différentes variantes de modèles pré-entraînés et affinés. Ce processus est formulé comme un problème d’optimisation sans gradient qui permet la suppression de couches, la sélection de couches parmi plusieurs candidats et la fusion de couches. Les expériences démontrent que cette technique permet de réduire la taille des modèles (environ 25% des paramètres) tout en maintenant des performances remarquables, surpassant les méthodes existantes sans nécessiter de post-entraînement coûteux.