Agentic Software Issue Resolution with Large Language Models: A Survey

📄 arXiv: 2512.22256v1 📥 PDF

作者: Zhonghao Jiang, David Lo, Zhongxin Liu

分类: cs.SE, cs.AI

发布日期: 2025-12-24


💡 一句话要点

综述:基于大语言模型的Agentic软件问题解决

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic系统 大型语言模型 软件问题解决 自动化软件维护 强化学习

📋 核心要点

  1. 现有软件问题解决方法难以应对现实世界中复杂、需要长期推理和迭代探索的场景。
  2. 该综述聚焦于基于大语言模型(LLM)的Agentic系统,这些系统具备更强的推理、规划和执行能力。
  3. 通过对126篇相关论文的系统分析,总结了该领域的研究现状、挑战和未来发展方向。

📝 摘要(中文)

软件问题解决旨在基于用户提供的自然语言描述,解决软件仓库中的实际问题(例如,错误修复和效率优化),这是软件维护的关键方面。随着大型语言模型(LLM)在推理和生成能力方面的快速发展,基于LLM的方法在自动化软件问题解决方面取得了显著进展。然而,现实世界的软件问题解决本质上是复杂的,需要长期的推理、迭代探索和反馈驱动的决策,这需要超出传统单步方法的Agentic能力。最近,基于LLM的Agentic系统已成为软件问题解决的主流。Agentic软件问题解决的进步不仅极大地提高了软件维护的效率和质量,而且为验证Agentic系统的推理、规划和执行能力提供了一个现实的环境,从而连接了人工智能和软件工程。本文对LLM-based Agentic软件问题解决研究前沿的126项最新研究进行了系统综述,概述了该任务的通用工作流程,并建立了跨三个维度的分类法:基准、技术和实证研究。此外,它还强调了Agentic强化学习的出现如何给软件工程Agentic系统的设计和训练带来了范式转变。最后,总结了关键挑战,并概述了未来研究的有希望的方向。

🔬 方法详解

问题定义:软件问题解决旨在根据用户提供的自然语言描述,解决软件仓库中存在的实际问题,例如缺陷修复和性能优化。现有方法,特别是传统的单步方法,难以处理需要长期推理、迭代探索和反馈驱动决策的复杂软件问题。这些问题往往涉及多个步骤和多种工具的使用,需要智能体具备更强的自主性和规划能力。

核心思路:核心思路是利用大型语言模型(LLM)的强大推理和生成能力,构建具备Agentic能力的软件问题解决系统。这些系统能够像人类专家一样,理解问题描述,制定解决方案,并自主执行相应的操作。通过迭代探索和反馈学习,不断优化解决方案,最终解决复杂软件问题。

技术框架:Agentic软件问题解决的通用工作流程通常包括以下几个阶段:问题理解、规划、行动执行和反馈学习。问题理解阶段负责解析用户提供的自然语言描述,提取关键信息。规划阶段根据问题描述,制定详细的解决方案。行动执行阶段负责执行解决方案中的各个步骤,例如运行测试用例、修改代码等。反馈学习阶段根据执行结果,评估解决方案的有效性,并进行相应的调整。

关键创新:该领域最重要的技术创新在于将大型语言模型(LLM)与Agentic系统相结合,赋予了软件问题解决系统更强的自主性和智能性。与传统的单步方法相比,Agentic系统能够进行长期推理、迭代探索和反馈驱动的决策,从而更好地解决复杂软件问题。此外,Agentic强化学习的引入也为Agentic系统的设计和训练带来了新的范式。

关键设计:关键设计包括Agent的选择、工具的使用、奖励函数的设计以及训练策略的选择。Agent可以是预训练的LLM,也可以是针对特定任务进行微调的LLM。工具的选择取决于具体的软件问题,例如代码编辑器、编译器、调试器等。奖励函数的设计需要能够准确反映解决方案的有效性,例如修复的缺陷数量、性能提升幅度等。训练策略的选择需要考虑到Agent的探索能力和学习效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该综述分析了126篇最新的研究论文,涵盖了Agentic软件问题解决的各个方面,包括基准数据集、技术方法和实证研究。特别强调了Agentic强化学习在软件工程中的应用,并指出了该领域面临的挑战和未来的研究方向。

🎯 应用场景

该研究成果可应用于自动化软件维护、缺陷修复、性能优化等领域,显著提升软件开发效率和质量。未来,随着Agentic系统能力的不断提升,有望实现更高级别的软件自动化,例如自动生成代码、自动进行软件测试等,从而彻底改变软件开发模式。

📄 摘要(原文)

Software issue resolution aims to address real-world issues in software repositories (e.g., bug fixing and efficiency optimization) based on natural language descriptions provided by users, representing a key aspect of software maintenance. With the rapid development of large language models (LLMs) in reasoning and generative capabilities, LLM-based approaches have made significant progress in automated software issue resolution. However, real-world software issue resolution is inherently complex and requires long-horizon reasoning, iterative exploration, and feedback-driven decision making, which demand agentic capabilities beyond conventional single-step approaches. Recently, LLM-based agentic systems have become mainstream for software issue resolution. Advancements in agentic software issue resolution not only greatly enhance software maintenance efficiency and quality but also provide a realistic environment for validating agentic systems' reasoning, planning, and execution capabilities, bridging artificial intelligence and software engineering. This work presents a systematic survey of 126 recent studies at the forefront of LLM-based agentic software issue resolution research. It outlines the general workflow of the task and establishes a taxonomy across three dimensions: benchmarks, techniques, and empirical studies. Furthermore, it highlights how the emergence of agentic reinforcement learning has brought a paradigm shift in the design and training of agentic systems for software engineering. Finally, it summarizes key challenges and outlines promising directions for future research.