SWE-Bench Pro : Un benchmark exigeant pour l'évaluation des LLM en ingénierie logicielle

Tags populaires：

Virtualisation sécurité DNS vérification formelle analyse d'atteignabilité erreurs du compilateur conflit de macro extension web framework de développement Graphiques bitmap incohérences d'API Tous les tags

SWE-Bench Pro : Un benchmark exigeant pour l'évaluation des LLM en ingénierie logicielle

2025-09-22

SWE-Bench Pro est un nouveau benchmark pour évaluer les grands modèles de langage (LLM) et les agents sur des tâches d'ingénierie logicielle à long terme. Étant donné une base de code et un problème, le modèle doit générer un correctif qui résout le problème décrit. Inspiré par SWE-Bench, il utilise Docker et Modal pour des évaluations reproductibles, nécessitant des utilisateurs pour configurer un environnement Docker et des identifiants Modal pour exécuter le script d'évaluation.

(github.com)

Développement

Alibaba dévoile Qwen3-Omni : un modèle multimodal de base natif de bout en bout

Le retour du support natif des fonds d'écran vidéo sur Windows 11 !