Source: https://arxiv.org/html/2505.13652v1
Ces documents explorent les stratégies de recherche guidée pour améliorer les performances des agents d’ingénierie logicielle basés sur de grands modèles linguistiques (LLM), en particulier dans des environnements non sérialisables comme les conteneurs Docker. Ils soulignent que, bien que les LLM excellent dans les tâches complexes, leurs performances sont inégales et peuvent être améliorées en explorant plusieurs chemins de solution. L’étude examine deux méthodes applicables aux environnements sans sauvegarde d’état : la prospective à 1 pas et la sélection de trajectoire, toutes deux utilisant une estimation de la fonction valeur-action apprise pour guider la recherche. Les résultats sur le benchmark SWE-bench Verified démontrent que ces techniques, surtout lorsqu’elles sont combinées, peuvent doubler le taux de réussite moyen, atteignant de nouveaux sommets pour les modèles open-source et améliorant également les performances des modèles fermés comme GPT-4o.