Agentic Software Issue Resolution with Large Language Models: A Survey

作者: Zhonghao Jiang, David Lo, Zhongxin Liu

分类: cs.SE, cs.AI

发布日期: 2025-12-24

💡 一句话要点

综述：基于大语言模型的Agentic软件问题解决

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Agentic系统 大型语言模型 软件问题解决 自动化软件维护 强化学习

📋 核心要点

现有软件问题解决方法难以应对现实世界中复杂、需要长期推理和迭代探索的场景。
该综述聚焦于基于大语言模型（LLM）的Agentic系统，这些系统具备更强的推理、规划和执行能力。
通过对126篇相关论文的系统分析，总结了该领域的研究现状、挑战和未来发展方向。

📝 摘要（中文）

软件问题解决旨在基于用户提供的自然语言描述，解决软件仓库中的实际问题（例如，错误修复和效率优化），这是软件维护的关键方面。随着大型语言模型（LLM）在推理和生成能力方面的快速发展，基于LLM的方法在自动化软件问题解决方面取得了显著进展。然而，现实世界的软件问题解决本质上是复杂的，需要长期的推理、迭代探索和反馈驱动的决策，这需要超出传统单步方法的Agentic能力。最近，基于LLM的Agentic系统已成为软件问题解决的主流。Agentic软件问题解决的进步不仅极大地提高了软件维护的效率和质量，而且为验证Agentic系统的推理、规划和执行能力提供了一个现实的环境，从而连接了人工智能和软件工程。本文对LLM-based Agentic软件问题解决研究前沿的126项最新研究进行了系统综述，概述了该任务的通用工作流程，并建立了跨三个维度的分类法：基准、技术和实证研究。此外，它还强调了Agentic强化学习的出现如何给软件工程Agentic系统的设计和训练带来了范式转变。最后，总结了关键挑战，并概述了未来研究的有希望的方向。

🔬 方法详解

问题定义：软件问题解决旨在根据用户提供的自然语言描述，解决软件仓库中存在的实际问题，例如缺陷修复和性能优化。现有方法，特别是传统的单步方法，难以处理需要长期推理、迭代探索和反馈驱动决策的复杂软件问题。这些问题往往涉及多个步骤和多种工具的使用，需要智能体具备更强的自主性和规划能力。

核心思路：核心思路是利用大型语言模型（LLM）的强大推理和生成能力，构建具备Agentic能力的软件问题解决系统。这些系统能够像人类专家一样，理解问题描述，制定解决方案，并自主执行相应的操作。通过迭代探索和反馈学习，不断优化解决方案，最终解决复杂软件问题。

技术框架：Agentic软件问题解决的通用工作流程通常包括以下几个阶段：问题理解、规划、行动执行和反馈学习。问题理解阶段负责解析用户提供的自然语言描述，提取关键信息。规划阶段根据问题描述，制定详细的解决方案。行动执行阶段负责执行解决方案中的各个步骤，例如运行测试用例、修改代码等。反馈学习阶段根据执行结果，评估解决方案的有效性，并进行相应的调整。

关键创新：该领域最重要的技术创新在于将大型语言模型（LLM）与Agentic系统相结合，赋予了软件问题解决系统更强的自主性和智能性。与传统的单步方法相比，Agentic系统能够进行长期推理、迭代探索和反馈驱动的决策，从而更好地解决复杂软件问题。此外，Agentic强化学习的引入也为Agentic系统的设计和训练带来了新的范式。

关键设计：关键设计包括Agent的选择、工具的使用、奖励函数的设计以及训练策略的选择。Agent可以是预训练的LLM，也可以是针对特定任务进行微调的LLM。工具的选择取决于具体的软件问题，例如代码编辑器、编译器、调试器等。奖励函数的设计需要能够准确反映解决方案的有效性，例如修复的缺陷数量、性能提升幅度等。训练策略的选择需要考虑到Agent的探索能力和学习效率。

🖼️ 关键图片

📊 实验亮点

该综述分析了126篇最新的研究论文，涵盖了Agentic软件问题解决的各个方面，包括基准数据集、技术方法和实证研究。特别强调了Agentic强化学习在软件工程中的应用，并指出了该领域面临的挑战和未来的研究方向。

🎯 应用场景

该研究成果可应用于自动化软件维护、缺陷修复、性能优化等领域，显著提升软件开发效率和质量。未来，随着Agentic系统能力的不断提升，有望实现更高级别的软件自动化，例如自动生成代码、自动进行软件测试等，从而彻底改变软件开发模式。

📄 摘要（原文）

Software issue resolution aims to address real-world issues in software repositories (e.g., bug fixing and efficiency optimization) based on natural language descriptions provided by users, representing a key aspect of software maintenance. With the rapid development of large language models (LLMs) in reasoning and generative capabilities, LLM-based approaches have made significant progress in automated software issue resolution. However, real-world software issue resolution is inherently complex and requires long-horizon reasoning, iterative exploration, and feedback-driven decision making, which demand agentic capabilities beyond conventional single-step approaches. Recently, LLM-based agentic systems have become mainstream for software issue resolution. Advancements in agentic software issue resolution not only greatly enhance software maintenance efficiency and quality but also provide a realistic environment for validating agentic systems' reasoning, planning, and execution capabilities, bridging artificial intelligence and software engineering. This work presents a systematic survey of 126 recent studies at the forefront of LLM-based agentic software issue resolution research. It outlines the general workflow of the task and establishes a taxonomy across three dimensions: benchmarks, techniques, and empirical studies. Furthermore, it highlights how the emergence of agentic reinforcement learning has brought a paradigm shift in the design and training of agentic systems for software engineering. Finally, it summarizes key challenges and outlines promising directions for future research.

Agentic Software Issue Resolution with Large Language Models: A Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理