đź“– Prompting et Autoencodeurs pour la Surveillance d'Activation

đź“– Prompting et Autoencodeurs pour la Surveillance d'Activation

•

Episode description

Ce texte est une entrée arXiv pour un article de recherche intitulé “Investigating task-specific prompts and sparse autoencoders for activation monitoring”, rédigé par Henk Tillman et Dan Mossing et soumis le 28 avril 2025. L’article examine différentes méthodes pour surveiller les activations internes des modèles linguistiques afin de mieux comprendre et prévoir leur comportement. Les auteurs comparent les approches basées sur le sondage linéaire, les invites spécifiques à la tâche (prompted probing) et les autoencodeurs creux (sparse autoencoders) pour l’analyse des activations. Ils concluent que le sondage avec invites est efficace avec des ressources de calcul à l’inférence, tandis que les méthodes basées sur les autoencodeurs sont préférables lorsque ces ressources sont limitées. Le document est classé dans la catégorie “Machine Learning (cs.LG)”.

Audio File

Download