SWE-Bench Pro: 소프트웨어 엔지니어링에서 LLM을 평가하기 위한 까다로운 벤치마크

2025-09-22

SWE-Bench Pro는 장기적인 소프트웨어 엔지니어링 작업에서 대규모 언어 모델(LLM)과 에이전트를 평가하기 위한 새로운 벤치마크입니다. 코드베이스와 문제가 주어지면 모델은 설명된 문제를 해결하는 패치를 생성해야 합니다. SWE-Bench에서 영감을 받았으며, 재현 가능한 평가를 위해 Docker와 Modal을 사용합니다. 평가 스크립트를 실행하려면 Docker 환경과 Modal 자격 증명을 설정해야 합니다.

(github.com)

개발

알리바바, Qwen3-Omni 공개: 진정한 엔드투엔드 멀티모달 기반 모델

Windows 11에 네이티브 비디오 배경화면 지원이 돌아온다!