SWE-Debate: Competitive Multi-Agent Debate for Software Issue Resolution
作者: Han Li, Yuling Shi, Shaoxin Lin, Xiaodong Gu, Heng Lian, Xin Wang, Yantao Jia, Tao Huang, Qianxiang Wang
分类: cs.SE, cs.CL, cs.LG
发布日期: 2025-07-31
备注: Our code and data are available at https://github.com/YerbaPage/SWE-Debate
💡 一句话要点
提出SWE-Debate,通过多智能体辩论解决软件问题,实现更有效的代码修复
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 软件问题解决 多智能体系统 代码修复 智能体辩论 故障定位
📋 核心要点
- 现有基于智能体的软件问题解决框架易陷入局部最优,难以发现跨代码库的issue模式。
- SWE-Debate通过构建多智能体辩论框架,鼓励多样化的推理路径,实现更有效的issue定位。
- 实验表明,SWE-Debate在SWE-bench上取得了新的state-of-the-art结果,显著优于现有方法。
📝 摘要(中文)
本文提出SWE-Debate,一个竞争性的多智能体辩论框架,旨在解决现有基于智能体的软件问题解决方法的局限性,即容易陷入局部最优解,且难以识别跨代码库的issue模式。SWE-Debate首先通过遍历代码依赖图创建多个故障传播轨迹作为定位提议。然后,组织一个三轮辩论,由专门的智能体参与,每个智能体沿着故障传播轨迹体现不同的推理视角。这种结构化的竞争使智能体能够协作地收敛到一个统一的修复计划。最后,该修复计划被集成到基于MCTS的代码修改智能体中,用于生成补丁。在SWE-bench基准测试上的实验表明,SWE-Debate在开源智能体框架中取得了新的state-of-the-art结果,并大幅优于基线。
🔬 方法详解
问题定义:论文旨在解决软件工程中issue的自动修复问题。现有基于智能体的修复方法,例如SWE-agent,主要依赖于智能体的独立探索,容易陷入局部最优解,无法有效识别和解决涉及多个代码模块的复杂问题。这些方法缺乏全局视角和协同机制,导致修复效果受限。
核心思路:SWE-Debate的核心思路是通过引入竞争性的多智能体辩论机制,模拟专家团队讨论问题的方式,促进不同视角之间的碰撞和融合。通过让多个智能体沿着不同的故障传播路径进行辩论,可以更全面地探索问题空间,避免陷入局部最优,并最终达成共识,形成更有效的修复方案。
技术框架:SWE-Debate框架主要包含三个阶段:1) 故障传播轨迹生成:通过分析代码依赖图,生成多个可能的故障传播路径,作为智能体辩论的起点。2) 多智能体辩论:沿着每个故障传播路径,创建具有不同推理视角的智能体,进行三轮辩论,包括提出问题、给出证据和总结陈述。3) 代码修改:将辩论形成的共识修复计划输入到基于MCTS的代码修改智能体中,生成最终的补丁。
关键创新:SWE-Debate的关键创新在于引入了竞争性的多智能体辩论机制,将传统的独立探索模式转变为协同推理模式。这种辩论机制能够有效地整合不同智能体的知识和视角,避免陷入局部最优,并提高问题解决的效率和准确性。此外,利用故障传播轨迹引导智能体探索,也提高了问题定位的效率。
关键设计:在故障传播轨迹生成阶段,需要合理设置搜索深度和分支因子,以控制轨迹的数量和质量。在多智能体辩论阶段,需要精心设计智能体的角色和推理规则,确保辩论的有效性和多样性。三轮辩论的具体流程和评估标准也需要仔细设计,以促进智能体之间的有效沟通和共识达成。MCTS代码修改智能体的具体参数设置也需要根据实际情况进行调整。
🖼️ 关键图片
📊 实验亮点
SWE-Debate在SWE-bench基准测试中取得了显著的性能提升,超越了现有的开源智能体框架,达到了新的state-of-the-art水平。具体而言,SWE-Debate的修复成功率比现有最佳基线提高了显著的百分比(具体数值未在摘要中给出),证明了其在软件问题解决方面的有效性。
🎯 应用场景
SWE-Debate可应用于自动化软件修复、代码缺陷检测、软件质量保证等领域。通过自动分析和修复代码中的问题,可以显著提高软件开发效率,降低维护成本,并提升软件的可靠性和安全性。该研究对于构建更智能、更高效的软件开发工具具有重要意义。
📄 摘要(原文)
Issue resolution has made remarkable progress thanks to the advanced reasoning capabilities of large language models (LLMs). Recently, agent-based frameworks such as SWE-agent have further advanced this progress by enabling autonomous, tool-using agents to tackle complex software engineering tasks. While existing agent-based issue resolution approaches are primarily based on agents' independent explorations, they often get stuck in local solutions and fail to identify issue patterns that span across different parts of the codebase. To address this limitation, we propose SWE-Debate, a competitive multi-agent debate framework that encourages diverse reasoning paths and achieves more consolidated issue localization. SWE-Debate first creates multiple fault propagation traces as localization proposals by traversing a code dependency graph. Then, it organizes a three-round debate among specialized agents, each embodying distinct reasoning perspectives along the fault propagation trace. This structured competition enables agents to collaboratively converge on a consolidated fix plan. Finally, this consolidated fix plan is integrated into an MCTS-based code modification agent for patch generation. Experiments on the SWE-bench benchmark show that SWE-Debate achieves new state-of-the-art results in open-source agent frameworks and outperforms baselines by a large margin.