Source: https://arxiv.org/html/2505.18545v1
Ce document présente un article de recherche intitulé “B-score: Detecting biases in large language models using response history”. Les auteurs, An Vo, Mohammad Reza Taesiri, Daeyoung Kim et Anh Totti Nguyen, proposent une nouvelle métrique, le B-score, pour identifier les biais dans les grands modèles linguistiques (LLM). Ils explorent si permettre aux LLM de voir leurs réponses antérieures à la même question peut réduire ces biais, testant cela sur des questions de divers types. Les résultats suggèrent que les LLM peuvent se “dé-biaiser” en conversation multi-tour pour des questions cherchant une réponse aléatoire et non biaisée. Le B-score est présenté comme une méthode efficace pour détecter les biais sur différents types de questions, améliorant l’évaluation des réponses des LLM.