LiveCodeBench Pro _ Référence de Programmation Compétitive

Jun 24, 2025

• 6min 32s

Episode description

Source : https://arxiv.org/pdf/2506.11928

Ce document présente LiveCodeBench Pro, une nouvelle plateforme d’évaluation conçue pour mesurer les capacités de raisonnement algorithmique des grands modèles linguistiques (LLM) en programmation compétitive. Contrairement aux bancs d’essai existants, LiveCodeBench Pro recueille des problèmes en temps réel pour éviter la contamination des données et emploie des experts humains pour étiqueter et analyser les soumissions. Les résultats révèlent que les LLM excellent dans les problèmes axés sur les connaissances et la logique, mais échouent considérablement dans les problèmes nécessitant de l’observation ou une analyse de cas complexe. L’étude diagnostique les erreurs courantes des LLM et montre que, malgré des améliorations avec plusieurs tentatives ou l’activation du raisonnement, un écart substantiel persiste entre leurs performances et celles des compétiteurs humains d’élite, en particulier sur les défis les plus ardus.

Audio File

Download

Redteamsfr podcast @redteamsfr

Jun 24, 2025

Nouvel épisode !

6:32

Jun 24, 2025

LiveCodeBench Pro _ Référence de Programmation Compétitive

Episode description

Audio File

Persons