Nichtdeterminismus in der LLM-Inferenz überwinden

2025-09-11
Nichtdeterminismus in der LLM-Inferenz überwinden

Die Unreproduzierbarkeit von Ergebnissen der Inferenz großer Sprachmodelle (LLMs) ist ein anhaltendes Problem. Dieser Beitrag untersucht die Ursache, die nicht einfach in der Nichtassoziativität von Gleitkommazahlen und paralleler Ausführung liegt, sondern im Mangel an "Batch-Invarianz" in Kernel-Implementierungen. Selbst wenn einzelne Kernels deterministisch sind, beeinflussen nichtdeterministische Variationen der Batchgröße (aufgrund der Serverlast) das Endergebnis. Die Autoren analysieren die Herausforderungen bei der Erreichung von Batch-Invarianz in RMSNorm, Matrixmultiplikation und Aufmerksamkeitsmechanismen und schlagen eine Methode vor, um Nichtdeterminismus durch Modifikation der Kernel-Implementierungen zu eliminieren. Dies führt zu einer vollständig reproduzierbaren LLM-Inferenz und positiven Auswirkungen auf das Reinforcement-Learning-Training.

KI