Exploring Large Language Models in Resolving Environment-Related Crash Bugs: Localizing and Repairing

📄 arXiv: 2312.10448v2 📥 PDF

作者: Xueying Du, Mingwei Liu, Hanlin Wang, Juntao Li, Xin Peng, Yiling Lou

分类: cs.SE, cs.AI, cs.CL

发布日期: 2023-12-16 (更新: 2025-08-30)


💡 一句话要点

IntDiagSolver:利用大语言模型交互式诊断并修复环境相关崩溃错误

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 崩溃错误修复 环境相关错误 交互式诊断 软件工程

📋 核心要点

  1. 现有研究主要关注LLM在代码相关崩溃错误上的定位和修复,忽略了环境相关崩溃错误,后者在实际软件中同样重要且更具挑战。
  2. 论文提出IntDiagSolver,一种交互式方法,通过与LLM持续交互,利用其自我规划能力,更精确地诊断和修复环境相关崩溃错误。
  3. 实验结果表明,IntDiagSolver在多个LLM上均能显著提升崩溃错误的解决准确性,定位和修复分别提升9.1%-43.3%和9.1%-53.3%。

📝 摘要(中文)

软件崩溃错误会导致程序异常行为甚至突然终止,因此需要立即解决。然而,由于其复杂的根本原因,解决崩溃错误可能具有挑战性,这些原因可能源于源代码问题或第三方库依赖等外部因素。大型语言模型(LLM)在软件工程任务中显示出前景。然而,现有研究主要集中于LLM定位和修复代码相关崩溃错误的能力,而它们在解决实际软件中环境相关崩溃错误方面的有效性仍未得到探索。为了填补这一空白,我们进行了首次全面研究,以评估LLM解决实际环境相关崩溃错误的能力。我们首先系统地比较了LLM在解决代码相关和环境相关崩溃错误方面的性能,并使用了不同级别的崩溃上下文信息。我们的发现表明,定位是解决代码相关崩溃的主要挑战,而修复对环境相关崩溃提出了更大的挑战。此外,我们研究了不同提示策略对提高环境相关崩溃错误解决的影响,包括不同的提示模板和多轮交互。在此基础上,我们进一步探索了一种利用LLM的自我规划能力的高级主动查询提示策略。基于这些探索,我们提出了一种交互式方法IntDiagSolver,旨在通过与LLM的持续交互来实现精确的崩溃错误解决。对多个LLM(包括GPT-3.5、GPT-4、Claude、CodeLlama、DeepSeek-R1和Qwen-3-Coder)的广泛评估表明,解决准确性得到了持续提高,定位方面的提升幅度为9.1%到43.3%,修复方面的提升幅度为9.1%到53.3%。

🔬 方法详解

问题定义:论文旨在解决软件中环境相关崩溃错误难以定位和修复的问题。现有方法主要关注代码错误,忽略了由于第三方库依赖、操作系统配置等环境因素导致的崩溃。这些环境相关错误往往难以复现和诊断,给开发人员带来挑战。

核心思路:论文的核心思路是利用大型语言模型(LLM)的推理和规划能力,通过交互式的方式逐步缩小问题范围,最终定位并修复环境相关崩溃错误。这种交互式方法允许LLM主动提问,获取更多信息,从而更准确地理解崩溃原因。

技术框架:IntDiagSolver包含以下主要阶段:1) 问题描述:将崩溃报告和相关上下文信息提供给LLM。2) 主动查询:LLM根据当前信息,生成需要进一步了解的问题。3) 信息收集:从用户或环境中收集LLM提出的问题的答案。4) 诊断与修复:LLM基于收集到的信息,诊断崩溃原因并提出修复建议。这个过程循环进行,直到LLM能够确定崩溃原因并给出可行的修复方案。

关键创新:IntDiagSolver的关键创新在于其交互式的问题求解方式,它允许LLM主动获取信息,而不是被动地接收信息。这种主动性使得LLM能够更好地理解环境相关崩溃错误的复杂性,并更准确地定位和修复错误。此外,利用LLM的自我规划能力,可以自动生成有针对性的问题,提高诊断效率。

关键设计:IntDiagSolver使用了不同的提示模板来引导LLM进行问题求解。例如,使用“你认为导致崩溃的原因是什么?”来引导LLM进行初步诊断,使用“为了验证你的假设,你需要哪些信息?”来引导LLM提出问题。此外,论文还探索了多轮交互策略,允许LLM在多次交互中逐步完善其诊断结果。没有提及具体的损失函数或网络结构,因为该方法主要依赖于LLM的固有能力。

📊 实验亮点

实验结果表明,IntDiagSolver在解决环境相关崩溃错误方面取得了显著的提升。在GPT-4上,IntDiagSolver将定位准确率提高了43.3%,修复准确率提高了53.3%。与其他LLM(如GPT-3.5、Claude、CodeLlama、DeepSeek-R1和Qwen-3-Coder)相比,IntDiagSolver也表现出一致的性能提升,证明了其有效性和通用性。

🎯 应用场景

该研究成果可应用于软件开发和维护的各个阶段,帮助开发人员快速定位和修复环境相关崩溃错误,提高软件质量和稳定性。通过自动化崩溃诊断过程,可以显著减少人工调试的时间和成本,提升开发效率。未来,该技术有望集成到IDE和CI/CD流程中,实现自动化崩溃分析和修复。

📄 摘要(原文)

Software crash bugs cause unexpected program behaviors or even abrupt termination, thus demanding immediate resolution. However, resolving crash bugs can be challenging due to their complex root causes, which can originate from issues in the source code or external factors like third-party library dependencies. Large language models (LLMs) have shown promise in software engineering tasks. However, existing research predominantly focuses on the capability of LLMs to localize and repair code-related crash bugs, leaving their effectiveness in resolving environment-related crash bugs in real-world software unexplored. To fill this gap, we conducted the first comprehensive study to assess the capability of LLMs in resolving real-world environment-related crash bugs. We first systematically compare LLMs' performance in resolving code-related and environment-related crash bugs with varying levels of crash contextual information. Our findings reveal that localization is the primary challenge for resolving code-related crashes, while repair poses a greater challenge for environment-related crashes. Furthermore, we investigate the impact of different prompt strategies on improving the resolution of environment-related crash bugs, incorporating different prompt templates and multi-round interactions. Building on this, we further explore an advanced active inquiry prompting strategy leveraging the self-planning capabilities of LLMs. Based on these explorations, we propose IntDiagSolver, an interactive methodology designed to enable precise crash bug resolution through ongoing engagement with LLMs. Extensive evaluations of IntDiagSolver across multiple LLMs (including GPT-3.5, GPT-4, Claude, CodeLlama, DeepSeek-R1, and Qwen-3-Coder) demonstrate consistent improvements in resolution accuracy, with substantial enhancements ranging from 9.1% to 43.3% in localization and 9.1% to 53.3% in repair.