Généralisation ou Hallucination : Le Raisonnement Hors Contexte des Transformeurs

Jun 15, 2025

• 5min 37s

Episode description

Source : https://arxiv.org/abs/2506.10887

Ce document de recherche, soumis à arXiv, aborde un phénomène clé dans les grands modèles linguistiques (LLM) : leur capacité à généraliser des informations tout en étant sujets à des hallucinations. Les auteurs postulent que ces deux comportements sont issus d’un mécanisme unique qu’ils nomment le raisonnement hors contexte (OCR). L’OCR est défini comme la capacité d’associer des concepts pour en déduire des implications, même en l’absence de liens causaux. L’étude propose une compréhension théorique de l’OCR, montrant comment une architecture spécifique de transformateur peut apprendre cette tâche et en attribuant la cause à un biais implicite de la descente de gradient. Finalement, l’article offre un cadre pour analyser et potentiellement atténuer les comportements indésirables résultant de l’injection de connaissances dans les LLM.

Audio File

Download

No transcript available for this episode.

Episode description

Audio File

Persons