

Ce document Ă©tudie les performances des grands modĂšles linguistiques (LLMs) dans les conversations Ă plusieurs tours, par opposition aux interactions Ă un seul tour. Il constate que les LLMs affichent une baisse de performance significative dans les scĂ©narios conversationnels, principalement en raison dâune fiabilitĂ© rĂ©duite plutĂŽt que dâune diminution de leurs capacitĂ©s. Les auteurs explorent les raisons de ce phĂ©nomĂšne, surnommĂ© âperdu en conversationâ, notamment les tentatives de rĂ©ponse prĂ©maturĂ©es et la difficultĂ© Ă maintenir le contexte. Ils proposent une nouvelle mĂ©thodologie de simulation et de mesure pour Ă©valuer les LLMs dans ces paramĂštres, et soulignent lâimportance pour les constructeurs de LLMs dâamĂ©liorer la fiabilitĂ© conversationnelle et pour les utilisateurs de consolider les instructions pour une meilleure interaction.