Conquistando o Não-Determinismo na Inferência de LLMs

2025-09-11
Conquistando o Não-Determinismo na Inferência de LLMs

A irreprodutibilidade dos resultados de inferência de modelos de linguagem grandes (LLMs) é um problema persistente. Esta publicação investiga a causa raiz, revelando que não é simplesmente a não-associatividade de ponto flutuante e a execução concorrente, mas sim a falta de "invariância de lote" nas implementações do kernel. Mesmo que kernels individuais sejam determinísticos, variações não determinísticas no tamanho do lote (devido à carga do servidor) afetam a saída final. Os autores analisam os desafios de alcançar a invariância de lote em RMSNorm, multiplicação de matrizes e mecanismos de atenção, propondo um método para eliminar o não-determinismo, modificando as implementações do kernel. Isso leva a uma inferência de LLM totalmente reprodutível e impactos positivos no treinamento de aprendizado por reforço.

IA