Calibration : Lutter contre la sursimplification et les données clairsemées

2025-09-21
Calibration : Lutter contre la sursimplification et les données clairsemées

Cet article traite d'un problème courant dans la calibration des modèles : la régression isotonique, du fait que l'ensemble de données de calibration est beaucoup plus petit que l'ensemble de données d'entraînement initial, simplifie excessivement la distribution de probabilité, perdant ainsi la finesse des distinctions du modèle. L'article analyse ce phénomène d'« aplatissement induit par la rareté des données » et propose plusieurs méthodes de diagnostic pour distinguer entre une simplification justifiable due au bruit et une sursimplification due aux limitations des données. Enfin, il présente le package Calibre qui, en relaxant les contraintes isotoniques ou en utilisant des modèles monotones lisses, maintient la précision de la calibration tout en préservant autant que possible le pouvoir discriminant du modèle original.