SWE-Bench Pro:ソフトウェアエンジニアリングにおけるLLM評価のための挑戦的なベンチマーク

2025-09-22
SWE-Bench Pro:ソフトウェアエンジニアリングにおけるLLM評価のための挑戦的なベンチマーク

SWE-Bench Proは、大規模言語モデル(LLM)とエージェントを長期的なソフトウェアエンジニアリングタスクで評価するための新しいベンチマークです。コードベースと課題が与えられると、モデルは問題を解決するパッチを生成する必要があります。SWE-Benchから着想を得ており、再現可能な評価のためにDockerとModalを使用します。評価スクリプトを実行するには、Docker環境とModalの認証情報を設定する必要があります。

開発