Improving MPI Error Detection and Repair with Large Language Models and Bug References

📄 arXiv: 2604.02398 📥 PDF

作者: Scott Piersall, Yang Gao, Shenyang Liu, Liqiang Wang

分类: cs.SE, cs.AI

发布日期: 2026-04-06


💡 一句话要点

利用LLM和Bug参考,提升MPI错误检测与修复能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: MPI错误检测 大型语言模型 Few-Shot Learning Chain-of-Thought 检索增强生成 高性能计算 错误修复 Bug参考

📋 核心要点

  1. MPI程序维护困难,现有LLM直接应用效果不佳,缺乏MPI错误知识。
  2. 提出结合FSL、CoT和RAG的错误检测与修复技术,增强LLM的MPI错误处理能力。
  3. 实验表明,该方法将错误检测准确率从44%提升至77%,且具有良好的泛化性。

📝 摘要(中文)

消息传递接口(MPI)是高性能计算(HPC)中的基础技术,广泛用于大规模模拟和分布式训练(例如,PyTorch和TensorFlow等机器学习框架)。然而,由于进程间复杂的相互作用以及消息传递和同步的复杂性,维护MPI程序仍然具有挑战性。随着ChatGPT等大型语言模型的发展,人们倾向于采用这种技术来实现自动错误检测和修复。然而,我们的研究表明,直接应用大型语言模型(LLM)会产生次优结果,这主要是因为这些模型缺乏关于正确和错误用法的基本知识,特别是MPI程序中发现的错误。在本文中,我们设计了一种结合Few-Shot Learning(FSL)、Chain-of-Thought(CoT)推理和Retrieval Augmented Generation(RAG)技术在LLM中的错误检测和修复技术,以增强大型语言模型检测和修复错误的能力。令人惊讶的是,与直接使用ChatGPT的基线方法相比,这种增强使错误检测准确率从44%显着提高到77%。此外,我们的实验表明,我们的错误参考技术可以很好地推广到其他大型语言模型。

🔬 方法详解

问题定义:论文旨在解决MPI程序中错误难以检测和修复的问题。现有方法,特别是直接应用大型语言模型(LLM),由于缺乏MPI错误用法的知识,导致错误检测和修复的准确率较低。现有的静态分析和动态分析方法虽然可以检测部分错误,但往往需要人工干预,且难以处理复杂的并发错误。

核心思路:论文的核心思路是利用Few-Shot Learning(FSL)、Chain-of-Thought(CoT)推理和Retrieval Augmented Generation(RAG)技术来增强LLM对MPI错误的理解和处理能力。通过FSL,LLM可以从少量示例中学习MPI错误的模式;CoT推理使LLM能够逐步分析错误并生成修复方案;RAG技术则允许LLM检索相关的MPI错误信息,从而提高错误检测和修复的准确性。

技术框架:该方法的技术框架主要包含以下几个模块:1) 错误检测模块:使用LLM结合FSL、CoT和RAG技术来识别MPI程序中的错误。2) 错误修复模块:基于错误检测的结果,LLM生成修复建议,并进行验证。3) Bug参考模块:构建MPI bug数据库,用于RAG技术检索相关错误信息。整体流程是,首先使用错误检测模块识别潜在错误,然后利用Bug参考模块检索相关信息,最后由错误修复模块生成修复建议。

关键创新:该方法最重要的技术创新点在于将FSL、CoT和RAG技术有效地结合起来,用于增强LLM对MPI错误的理解和处理能力。与直接使用LLM相比,该方法能够显著提高错误检测和修复的准确率。此外,构建MPI bug数据库,并将其用于RAG技术,也是一个重要的创新点。

关键设计:在FSL中,选择具有代表性的MPI错误示例至关重要。CoT推理需要设计合适的提示语,引导LLM逐步分析错误。RAG技术需要构建高质量的MPI bug数据库,并设计有效的检索算法。具体的参数设置和网络结构未知,论文可能未详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法将MPI错误检测的准确率从直接使用ChatGPT的44%显著提高到77%。此外,实验还验证了该方法具有良好的泛化能力,可以应用于其他大型语言模型。这些结果表明,通过结合FSL、CoT和RAG技术,可以有效提升LLM在MPI错误检测和修复方面的性能。

🎯 应用场景

该研究成果可应用于高性能计算、分布式系统和机器学习等领域,能够提高MPI程序的可靠性和可维护性,降低开发和维护成本。通过自动化错误检测和修复,可以加速科学计算和大规模数据处理的进程,并为开发更可靠的分布式应用提供支持。未来,该技术有望集成到MPI编译器和调试工具中,实现更智能化的错误处理。

📄 摘要(原文)

Message Passing Interface (MPI) is a foundational technology in high-performance computing (HPC), widely used for large-scale simulations and distributed training (e.g., in machine learning frameworks such as PyTorch and TensorFlow). However, maintaining MPI programs remains challenging due to their complex interplay among processes and the intricacies of message passing and synchronization. With the advancement of large language models like ChatGPT, it is tempting to adopt such technology for automated error detection and repair. Yet, our studies reveal that directly applying large language models (LLMs) yields suboptimal results, largely because these models lack essential knowledge about correct and incorrect usage, particularly the bugs found in MPI programs. In this paper, we design a bug detection and repair technique alongside Few-Shot Learning (FSL), Chain-of-Thought (CoT) reasoning, and Retrieval Augmented Generation (RAG) techniques in LLMs to enhance the large language model's ability to detect and repair errors. Surprisingly, such enhancements lead to a significant improvement, from 44% to 77%, in error detection accuracy compared to baseline methods that use ChatGPT directly. Additionally, our experiments demonstrate our bug referencing technique generalizes well to other large language models.