Vaincre le non-déterminisme dans l'inférence des LLM

2025-09-11
Vaincre le non-déterminisme dans l'inférence des LLM

L'irreproductibilité des résultats d'inférence des grands modèles de langage (LLM) est un problème persistant. Cet article explore la cause profonde, révélant qu'il ne s'agit pas simplement de la non-associativité des nombres à virgule flottante et de l'exécution concurrente, mais plutôt du manque d'« invariance par lot » dans les implémentations des noyaux. Même si les noyaux individuels sont déterministes, les variations non déterministes de la taille du lot (en raison de la charge du serveur) affectent la sortie finale. Les auteurs analysent les défis liés à la réalisation de l'invariance par lot dans RMSNorm, la multiplication matricielle et les mécanismes d'attention, proposant une méthode pour éliminer le non-déterminisme en modifiant les implémentations des noyaux. Cela conduit à une inférence LLM totalement reproductible et à des impacts positifs sur l'apprentissage par renforcement.

Lire plus
IA