大型语言模型推理中的非确定性:根源与解决方案

2025-09-11
大型语言模型推理中的非确定性:根源与解决方案

大型语言模型(LLM)推理结果的不可复现性是一个长期问题。本文深入探讨了其根本原因并非简单的浮点运算非结合性和并发执行,而是由于内核实现中缺乏“批处理不变性”。即使单个内核是确定性的,但批处理大小的非确定性变化(由服务器负载决定)会影响最终结果。文章分析了RMSNorm、矩阵乘法和注意力机制中批处理不变性的实现挑战,并提出了一种通过调整内核实现来消除非确定性的方法,最终实现了LLM推理的完全可复现性,并对强化学习训练产生了积极影响。

阅读更多
AI