

Source : https://arxiv.org/pdf/2506.11928
Ce document présente LiveCodeBench Pro, une nouvelle plateforme d’évaluation conçue pour mesurer les capacités de raisonnement algorithmique des grands modèles linguistiques (LLM) en programmation compétitive. Contrairement aux bancs d’essai existants, LiveCodeBench Pro recueille des problèmes en temps réel pour éviter la contamination des données et emploie des experts humains pour étiqueter et analyser les soumissions. Les résultats révèlent que les LLM excellent dans les problèmes axés sur les connaissances et la logique, mais échouent considérablement dans les problèmes nécessitant de l’observation ou une analyse de cas complexe. L’étude diagnostique les erreurs courantes des LLM et montre que, malgré des améliorations avec plusieurs tentatives ou l’activation du raisonnement, un écart substantiel persiste entre leurs performances et celles des compétiteurs humains d’élite, en particulier sur les défis les plus ardus.