Détection des biais LLM avec B-score

Détection des biais LLM avec B-score

Episode description

Source: https://arxiv.org/html/2505.18545v1

Ce document présente un article de recherche intitulé “B-score: Detecting biases in large language models using response history”. Les auteurs, An Vo, Mohammad Reza Taesiri, Daeyoung Kim et Anh Totti Nguyen, proposent une nouvelle métrique, le B-score, pour identifier les biais dans les grands modèles linguistiques (LLM). Ils explorent si permettre aux LLM de voir leurs réponses antérieures à la même question peut réduire ces biais, testant cela sur des questions de divers types. Les résultats suggèrent que les LLM peuvent se “dé-biaiser” en conversation multi-tour pour des questions cherchant une réponse aléatoire et non biaisée. Le B-score est présenté comme une méthode efficace pour détecter les biais sur différents types de questions, améliorant l’évaluation des réponses des LLM.

Audio File

Download
No transcript available for this episode.