Évaluation des Modèles LLM avec RAG

Évaluation des Modèles LLM avec RAG

Episode description

Source: https://arxiv.org/html/2411.06037v3

Ce texte examine la performance des modèles de langage, notamment Mistral 3 7B, dans les tâches de réponse aux questions, en particulier en utilisant la technique de Génération Augmentée par Récupération (RAG). Il compare différentes approches, incluant des modèles de base, le RAG standard et le réglage fin (fine-tuning) de Mistral avec des stratégies pour encourager l’abstention lors de l’insuffisance de contexte. L’étude analyse la proportion de réponses correctes, d’abstentions et d’hallucinations sur des ensembles de données comme HotPotQA et Musique-Ans. Elle détaille également les méthodologies de fine-tuning, les ensembles de données utilisés et les différentes méthodes d’évaluation, comme un évaluateur basé sur un LLM pour une évaluation sémantique. Les résultats montrent l’impact du fine-tuning et du RAG sur la performance et la propension des modèles à halluciner ou à s’abstenir.

Audio File

Download