Calibration : Lutter contre la sursimplification et les données clairsemées

2025-09-21
Calibration : Lutter contre la sursimplification et les données clairsemées

Cet article traite d'un problème courant dans la calibration des modèles : la régression isotonique, du fait que l'ensemble de données de calibration est beaucoup plus petit que l'ensemble de données d'entraînement initial, simplifie excessivement la distribution de probabilité, perdant ainsi la finesse des distinctions du modèle. L'article analyse ce phénomène d'« aplatissement induit par la rareté des données » et propose plusieurs méthodes de diagnostic pour distinguer entre une simplification justifiable due au bruit et une sursimplification due aux limitations des données. Enfin, il présente le package Calibre qui, en relaxant les contraintes isotoniques ou en utilisant des modèles monotones lisses, maintient la précision de la calibration tout en préservant autant que possible le pouvoir discriminant du modèle original.

Lire plus

Maîtriser les pics de demande synchronisée : une approche raisonnée

2025-08-25
Maîtriser les pics de demande synchronisée : une approche raisonnée

Une demande synchronisée, où un grand nombre de clients demandent un service presque simultanément, peut surcharger même les systèmes bien pourvus en ressources. Cet article présente une approche raisonnée pour atténuer ce problème en utilisant un jitter aléatoire pour répartir les demandes dans le temps. En calculant une taille de fenêtre sécurisée (W), les demandes sont distribuées uniformément, réduisant ainsi le taux d’arrivée de pointe. L’article traite également de l’utilisation d’indices côté serveur (tels que les en-têtes Retry-After) et de la limitation de débit pour affiner la stratégie, en équilibrant la stabilité et l’équité du système. L’approche est présentée comme un problème de contrôle, soulignant la nécessité d’une prise de décision et d’une vérification basées sur la télémétrie.

Lire plus
Développement conception système

L'équilibre du fraudeur : comment la publicité CPA a brisé la signalisation de la qualité

2025-07-19
L'équilibre du fraudeur : comment la publicité CPA a brisé la signalisation de la qualité

Cet article explore comment Internet, et plus précisément la publicité au coût par acquisition (CPA), a brisé le mécanisme traditionnel de signalisation de la qualité dans la publicité. Historiquement, les vendeurs de haute qualité étaient plus disposés à investir massivement dans la publicité en raison de rendements plus élevés à long terme. Cependant, la publicité CPA permet aux vendeurs de faible qualité de financer les annonces dès le premier jour de revenus, sapant ainsi ce signal. Des facteurs tels que la création facile de marques, les sanctions légères pour les retours, la compression des notes et la confiance des consommateurs dans les heuristiques de prix contribuent à un « équilibre du fraudeur » où les produits de faible qualité dominent. L'article présente un modèle économique illustrant cela et propose des solutions telles que des identifiants de fabricant persistants et des surcharges CPA ajustées aux retours pour dissuader les vendeurs de faible qualité.

Lire plus

Débloquer les données tabulaires pour les LLM : une approche de distillation mécanique

2025-05-09
Débloquer les données tabulaires pour les LLM : une approche de distillation mécanique

Les grands modèles de langage (LLM) excellent dans le traitement du texte et des images, mais ont du mal avec les données tabulaires. Actuellement, les LLM s'appuient principalement sur des résumés statistiques publiés, sans exploiter pleinement les connaissances contenues dans les ensembles de données tabulaires, telles que les données d'enquête. Cet article propose une nouvelle approche utilisant des techniques de distillation mécanique pour créer des résumés univariés, bivariés et multivariés. Cela est complété en demandant au LLM de suggérer des questions pertinentes et d'apprendre à partir des données. Le pipeline en trois étapes implique de comprendre la structure des données, d'identifier les types de questions et de générer des résumés mécaniques et des visualisations. Les auteurs suggèrent que cette approche peut améliorer les systèmes de génération augmentée par la récupération (RAG) et compléter les 'connaissances du monde' potentiellement biaisées, en recommandant de commencer par les référentiels d'articles scientifiques (comme Harvard Dataverse) et les données administratives pour la validation.

Lire plus