Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference

作者: Yafan Huang, Sheng Di, Guanpeng Li

分类: cs.DC, cs.AI

发布日期: 2026-06-01

备注: Accepted at ICS'26

💡 一句话要点

提出LLMFI框架，系统研究大语言模型推理中的错误传播问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 错误传播 故障注入 可靠性 高性能计算

📋 核心要点

现有研究缺乏对LLM推理中软错误传播的系统性分析，阻碍了LLM在高性能计算环境中的可靠应用。
论文提出LLMFI故障注入框架，通过可控的故障注入，系统性地研究LLM推理过程中的错误传播模式。
实验结果揭示了LLM推理过程中的关键脆弱点，并提出了四种低开销的软件优化方法以提升LLM的可靠性。

📝 摘要（中文）

大型语言模型（LLM）正日益融入高性能计算（HPC）工作流程，通过代码生成和特定领域决策等多种视角加速科学发现。然而，软错误如何传播并影响LLM推理在很大程度上仍未被探索。为了弥补这一差距，我们提出LLMFI，一个可配置和确定性的故障注入框架，从而对LLM推理中的错误传播进行全面研究。利用LLMFI，我们系统地在三个开源LLM和十三个代表性任务中注入故障，涵盖推理、多语言、数学和编码领域。此外，我们进行了细粒度的案例研究，揭示了关键的脆弱性模式。总的来说，我们的研究产生了17个结论，加深了对LLM推理中错误传播的理解，并提出了四种低开销的方法，通过纯软件修改来提高可靠性，为未来的错误检测和缓解提供实用的指导。

🔬 方法详解

问题定义：论文旨在解决LLM在推理过程中，由于软错误引起的错误传播问题。现有方法缺乏对LLM内部错误传播机制的深入理解，难以有效地检测和缓解这些错误，限制了LLM在对可靠性要求较高的HPC环境中的应用。

核心思路：论文的核心思路是通过可控的故障注入，模拟LLM推理过程中可能出现的软错误，并观察这些错误如何传播和影响最终的推理结果。通过系统性的实验，分析不同类型的错误在不同任务上的影响，从而揭示LLM的脆弱点和潜在的优化方向。

技术框架：论文提出的LLMFI框架主要包含以下几个模块：1) 故障注入模块：用于在LLM推理过程中注入不同类型的故障，例如比特翻转；2) 任务执行模块：用于执行各种LLM推理任务，例如推理、多语言翻译、数学计算和代码生成；3) 结果分析模块：用于分析LLM的推理结果，并评估故障对结果的影响。整个流程是先配置故障注入参数，然后执行LLM推理任务，最后分析结果并得出结论。

关键创新：LLMFI框架的关键创新在于其可配置性和确定性。可配置性允许研究人员灵活地选择故障类型、注入位置和注入时间，从而进行更细粒度的错误分析。确定性保证了在相同配置下，实验结果可以复现，从而提高了研究的可靠性。与传统的随机故障注入方法相比，LLMFI能够更精确地控制故障，并更有效地分析错误传播的模式。

关键设计：LLMFI框架的关键设计包括：1) 精确的故障注入机制，能够精确地控制故障的类型和位置；2) 多样化的任务集，涵盖了LLM的各种应用场景；3) 细粒度的结果分析方法，能够评估故障对LLM推理结果的各个方面的影响。论文还提出了四种低开销的软件优化方法，例如使用冗余计算和错误检测码，以提高LLM的可靠性。

🖼️ 关键图片

📊 实验亮点

研究通过LLMFI框架，在三个开源LLM和十三个代表性任务上进行了系统性实验，揭示了LLM推理过程中的关键脆弱点。实验结果表明，某些类型的故障对LLM的推理结果有显著影响，例如在数学计算任务中，单个比特翻转可能导致结果完全错误。论文还提出了四种低开销的软件优化方法，可以在不显著增加计算成本的情况下，提高LLM的可靠性。

🎯 应用场景

该研究成果可应用于提升LLM在高性能计算、自动驾驶、金融分析等领域的可靠性。通过理解LLM的错误传播机制，可以开发更有效的错误检测和纠正方法，降低LLM在关键任务中出错的风险。未来的研究可以进一步探索硬件层面的错误缓解策略，并开发自适应的容错机制。

📄 摘要（原文）

Large language models (LLMs) are increasingly integrated into high-performance computing (HPC) workflows, accelerating scientific discovery through diverse perspectives such as code generation and domain-specific decision-making. Yet, how soft errors propagate and affect LLM inference remains largely unexplored. To bridge this gap, we present a comprehensive study on error propagation in LLM inference, enabled by our proposed LLMFI, a configurable and deterministic fault-injection framework. Using LLMFI, we systematically inject faults across three open-weighted LLMs and thirteen representative tasks, covering reasoning, multilingual, mathematical, and coding domains. In addition, we conduct fine-grained case studies that reveal critical vulnerability patterns. Overall, our study yields 17 takeaways that advance the understanding of error propagation in LLM inference and introduces four low-overhead directions to improve reliability through software-only modification, offering practical guidance for future error detection and mitigation.

Not All Errors Are Equal: A Systematic Study of Error Propagation in Large Language Model Inference

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理