SWE-Bench Pro：ソフトウェアエンジニアリングにおけるLLM評価のための挑戦的なベンチマーク

人気のタグ：

仮想化 DNSセキュリティ形式的検証到達可能性解析 C言語コンパイラエラーマクロの衝突 Web拡張機能開発フレームワークコモドール64 すべてのタグ

SWE-Bench Pro：ソフトウェアエンジニアリングにおけるLLM評価のための挑戦的なベンチマーク

2025-09-22

SWE-Bench Proは、大規模言語モデル（LLM）とエージェントを長期的なソフトウェアエンジニアリングタスクで評価するための新しいベンチマークです。コードベースと課題が与えられると、モデルは問題を解決するパッチを生成する必要があります。SWE-Benchから着想を得ており、再現可能な評価のためにDockerとModalを使用します。評価スクリプトを実行するには、Docker環境とModalの認証情報を設定する必要があります。

(github.com)

開発

アリババ、Qwen3-Omniを発表：真のエンドツーエンドのマルチモーダル基盤モデル

Windows 11にネイティブのビデオ壁紙サポートが復活！