Source : https://arxiv.org/abs/2506.10952
Le texte présente Domain2Vec, une nouvelle approche conçue pour optimiser la préparation des modèles linguistiques sans nécessiter d’entraînement intensif. Cette méthode décompose les ensembles de données en combinaisons linéaires de “méta-domaines”, qui capturent les caractéristiques essentielles des données. En associant chaque ensemble de données à un vecteur de domaine, Domain2Vec identifie le mélange de données optimal en se basant sur l’hypothèse d’alignement de distribution (DA²), où un meilleur alignement des données d’entraînement et de validation réduit la perte de validation. Les expériences montrent que cette technique réduit significativement le temps de calcul tout en améliorant la performance des tâches en aval.