SWE-Bench Pro: 소프트웨어 엔지니어링에서 LLM을 평가하기 위한 까다로운 벤치마크

2025-09-22
SWE-Bench Pro: 소프트웨어 엔지니어링에서 LLM을 평가하기 위한 까다로운 벤치마크

SWE-Bench Pro는 장기적인 소프트웨어 엔지니어링 작업에서 대규모 언어 모델(LLM)과 에이전트를 평가하기 위한 새로운 벤치마크입니다. 코드베이스와 문제가 주어지면 모델은 설명된 문제를 해결하는 패치를 생성해야 합니다. SWE-Bench에서 영감을 받았으며, 재현 가능한 평가를 위해 Docker와 Modal을 사용합니다. 평가 스크립트를 실행하려면 Docker 환경과 Modal 자격 증명을 설정해야 합니다.

개발