SWE-Bench Pro : Un benchmark exigeant pour l'évaluation des LLM en ingénierie logicielle

2025-09-22
SWE-Bench Pro : Un benchmark exigeant pour l'évaluation des LLM en ingénierie logicielle

SWE-Bench Pro est un nouveau benchmark pour évaluer les grands modèles de langage (LLM) et les agents sur des tâches d'ingénierie logicielle à long terme. Étant donné une base de code et un problème, le modèle doit générer un correctif qui résout le problème décrit. Inspiré par SWE-Bench, il utilise Docker et Modal pour des évaluations reproductibles, nécessitant des utilisateurs pour configurer un environnement Docker et des identifiants Modal pour exécuter le script d'évaluation.

Développement