Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference
作者: Yafan Huang, Sheng Di, Guanpeng Li
分类: cs.DC, cs.AI
发布日期: 2026-06-01
备注: Accepted at ICS'26
💡 一句话要点
提出LLMFI框架,系统研究大语言模型推理中的错误传播问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 错误传播 故障注入 可靠性 高性能计算
📋 核心要点
- 现有研究缺乏对LLM推理中软错误传播的系统性分析,阻碍了LLM在高性能计算环境中的可靠应用。
- 论文提出LLMFI故障注入框架,通过可控的故障注入,系统性地研究LLM推理过程中的错误传播模式。
- 实验结果揭示了LLM推理过程中的关键脆弱点,并提出了四种低开销的软件优化方法以提升LLM的可靠性。
📝 摘要(中文)
大型语言模型(LLM)正日益融入高性能计算(HPC)工作流程,通过代码生成和特定领域决策等多种视角加速科学发现。然而,软错误如何传播并影响LLM推理在很大程度上仍未被探索。为了弥补这一差距,我们提出LLMFI,一个可配置和确定性的故障注入框架,从而对LLM推理中的错误传播进行全面研究。利用LLMFI,我们系统地在三个开源LLM和十三个代表性任务中注入故障,涵盖推理、多语言、数学和编码领域。此外,我们进行了细粒度的案例研究,揭示了关键的脆弱性模式。总的来说,我们的研究产生了17个结论,加深了对LLM推理中错误传播的理解,并提出了四种低开销的方法,通过纯软件修改来提高可靠性,为未来的错误检测和缓解提供实用的指导。
🔬 方法详解
问题定义:论文旨在解决LLM在推理过程中,由于软错误引起的错误传播问题。现有方法缺乏对LLM内部错误传播机制的深入理解,难以有效地检测和缓解这些错误,限制了LLM在对可靠性要求较高的HPC环境中的应用。
核心思路:论文的核心思路是通过可控的故障注入,模拟LLM推理过程中可能出现的软错误,并观察这些错误如何传播和影响最终的推理结果。通过系统性的实验,分析不同类型的错误在不同任务上的影响,从而揭示LLM的脆弱点和潜在的优化方向。
技术框架:论文提出的LLMFI框架主要包含以下几个模块:1) 故障注入模块:用于在LLM推理过程中注入不同类型的故障,例如比特翻转;2) 任务执行模块:用于执行各种LLM推理任务,例如推理、多语言翻译、数学计算和代码生成;3) 结果分析模块:用于分析LLM的推理结果,并评估故障对结果的影响。整个流程是先配置故障注入参数,然后执行LLM推理任务,最后分析结果并得出结论。
关键创新:LLMFI框架的关键创新在于其可配置性和确定性。可配置性允许研究人员灵活地选择故障类型、注入位置和注入时间,从而进行更细粒度的错误分析。确定性保证了在相同配置下,实验结果可以复现,从而提高了研究的可靠性。与传统的随机故障注入方法相比,LLMFI能够更精确地控制故障,并更有效地分析错误传播的模式。
关键设计:LLMFI框架的关键设计包括:1) 精确的故障注入机制,能够精确地控制故障的类型和位置;2) 多样化的任务集,涵盖了LLM的各种应用场景;3) 细粒度的结果分析方法,能够评估故障对LLM推理结果的各个方面的影响。论文还提出了四种低开销的软件优化方法,例如使用冗余计算和错误检测码,以提高LLM的可靠性。
🖼️ 关键图片
📊 实验亮点
研究通过LLMFI框架,在三个开源LLM和十三个代表性任务上进行了系统性实验,揭示了LLM推理过程中的关键脆弱点。实验结果表明,某些类型的故障对LLM的推理结果有显著影响,例如在数学计算任务中,单个比特翻转可能导致结果完全错误。论文还提出了四种低开销的软件优化方法,可以在不显著增加计算成本的情况下,提高LLM的可靠性。
🎯 应用场景
该研究成果可应用于提升LLM在高性能计算、自动驾驶、金融分析等领域的可靠性。通过理解LLM的错误传播机制,可以开发更有效的错误检测和纠正方法,降低LLM在关键任务中出错的风险。未来的研究可以进一步探索硬件层面的错误缓解策略,并开发自适应的容错机制。
📄 摘要(原文)
Large language models (LLMs) are increasingly integrated into high-performance computing (HPC) workflows, accelerating scientific discovery through diverse perspectives such as code generation and domain-specific decision-making. Yet, how soft errors propagate and affect LLM inference remains largely unexplored. To bridge this gap, we present a comprehensive study on error propagation in LLM inference, enabled by our proposed LLMFI, a configurable and deterministic fault-injection framework. Using LLMFI, we systematically inject faults across three open-weighted LLMs and thirteen representative tasks, covering reasoning, multilingual, mathematical, and coding domains. In addition, we conduct fine-grained case studies that reveal critical vulnerability patterns. Overall, our study yields 17 takeaways that advance the understanding of error propagation in LLM inference and introduces four low-overhead directions to improve reliability through software-only modification, offering practical guidance for future error detection and mitigation.