キャリブレーション:過度な単純化とスパースデータとの戦い

2025-09-21
キャリブレーション:過度な単純化とスパースデータとの戦い

この記事では、モデルキャリブレーションにおける一般的な問題点について論じています。それは、キャリブレーションデータセットが元のトレーニングデータセットよりもはるかに小さいため、等尺性回帰によって確率分布が過度に単純化され、モデルの細かい違いが失われるという問題です。この記事では、この「データの希薄性によって引き起こされる平坦化」現象を分析し、ノイズによる正当な単純化とデータの制限による過剰な単純化を区別するためのいくつかの診断方法を提案しています。最後に、等尺性制約を緩和したり、滑らかな単調モデルを使用したりすることで、キャリブレーション精度を維持しながら、元のモデルの識別能力を可能な限り維持するCalibreパッケージを紹介しています。