캘리브레이션: 과도한 단순화와 스파스 데이터와의 싸움

2025-09-21
캘리브레이션: 과도한 단순화와 스파스 데이터와의 싸움

이 논문은 모델 캘리브레이션에서 흔히 발생하는 문제점을 다룹니다. 캘리브레이션 데이터셋이 원래 학습 데이터셋보다 훨씬 작기 때문에 등각 회귀로 인해 확률 분포가 과도하게 단순화되어 모델의 미세한 차이가 손실되는 문제입니다. 이 논문에서는 이러한 “데이터 희소성으로 인한 평탄화” 현상을 분석하고, 노이즈로 인한 정당한 단순화와 데이터 제약으로 인한 과도한 단순화를 구분하기 위한 몇 가지 진단 방법을 제안합니다. 마지막으로, 등각 제약을 완화하거나 부드러운 단조 모델을 사용하여 캘리브레이션 정확도를 유지하면서 원래 모델의 차별 능력을 최대한 유지하는 Calibre 패키지를 소개합니다.