Diversity Empowers Intelligence: Integrating Expertise of Software Engineering Agents

📄 arXiv: 2408.07060v1 📥 PDF

作者: Kexun Zhang, Weiran Yao, Zuxin Liu, Yihao Feng, Zhiwei Liu, Rithesh Murthy, Tian Lan, Lei Li, Renze Lou, Jiacheng Xu, Bo Pang, Yingbo Zhou, Shelby Heinecke, Silvio Savarese, Huan Wang, Caiming Xiong

分类: cs.SE, cs.AI, cs.CL, cs.LG

发布日期: 2024-08-13


💡 一句话要点

DEI框架:集成软件工程Agent的多元智能,显著提升问题解决能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软件工程Agent 大型语言模型 Agent委员会 多元智能 问题解决 协作AI SWE-Bench Lite

📋 核心要点

  1. 现有软件工程Agent框架各有优劣,在不同任务上表现差异大,未能充分发挥各自的优势。
  2. DEI框架通过集成多个Agent的专业知识,构建Agent委员会,利用其多样性来提升问题解决能力。
  3. 实验表明,DEI框架能显著提升Agent集合的性能,在SWE-Bench Lite上达到领先水平。

📝 摘要(中文)

大型语言模型(LLM)Agent在解决实际软件工程(SWE)问题方面展现出巨大潜力。目前最先进的开源SWE Agent能够在SWE-Bench Lite上解决超过27%的真实GitHub问题。然而,这些复杂的Agent框架各有优势,擅长某些任务,但在其他任务中表现不佳。为了充分利用这些Agent的多样性,我们提出了DEI(Diversity Empowered Intelligence)框架,该框架利用它们的独特专业知识。DEI作为一个元模块,位于现有的SWE Agent框架之上,管理Agent集合以增强问题解决能力。实验结果表明,DEI引导的Agent委员会能够大幅超越最佳单个Agent的性能。例如,一组开源SWE Agent在SWE-Bench Lite上的最高个体解决率为27.3%,而通过DEI可以达到34.3%的解决率,提高了25%,超过了大多数闭源解决方案。我们表现最佳的团队以55%的解决率脱颖而出,在SWE-Bench Lite上名列前茅。我们的发现为不断增长的关于协作AI系统的研究及其解决复杂软件工程挑战的潜力做出了贡献。

🔬 方法详解

问题定义:现有的大型语言模型Agent在解决软件工程问题时,虽然取得了一定的进展,但不同的Agent在不同类型的任务上表现差异很大。单个Agent的能力有限,无法充分利用不同Agent的优势,导致整体问题解决能力受限。因此,如何有效地整合多个Agent的知识和能力,以提升软件工程问题的解决效率和准确性,是一个亟待解决的问题。

核心思路:DEI框架的核心思路是利用Agent的多样性来增强智能。通过构建一个元模块,DEI能够管理和协调多个Agent,形成一个Agent委员会。每个Agent都有其独特的专业知识和解决问题的能力,DEI框架能够根据问题的特点,选择合适的Agent或Agent组合来解决问题,从而充分发挥每个Agent的优势。

技术框架:DEI框架作为一个元模块,位于现有的SWE Agent框架之上。它主要包含以下几个模块:1) Agent管理模块:负责注册和管理多个Agent,记录每个Agent的专业知识和能力。2) 问题分析模块:分析输入的软件工程问题,提取问题的特征和需求。3) Agent选择模块:根据问题分析的结果,选择合适的Agent或Agent组合来解决问题。4) 结果集成模块:将多个Agent的输出结果进行集成,生成最终的解决方案。整个流程可以概括为:输入问题 -> 问题分析 -> Agent选择 -> Agent执行 -> 结果集成 -> 输出解决方案。

关键创新:DEI框架的关键创新在于其利用Agent多样性的思想。与以往专注于提升单个Agent性能的方法不同,DEI框架通过集成多个Agent的优势,构建一个更强大的问题解决系统。这种方法能够充分利用现有Agent的资源,避免重复开发,并能够根据问题的特点动态调整Agent组合,从而提高问题解决的灵活性和适应性。

关键设计:DEI框架的关键设计包括Agent选择策略和结果集成策略。Agent选择策略需要根据问题的特征,选择最合适的Agent或Agent组合。这可以通过学习算法来实现,例如,可以使用强化学习来训练一个Agent选择器,根据问题的特征选择最佳的Agent组合。结果集成策略需要将多个Agent的输出结果进行融合,生成最终的解决方案。这可以通过加权平均、投票等方法来实现。具体的参数设置和网络结构取决于具体的应用场景和Agent的特点,需要根据实际情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DEI框架能够显著提升Agent集合的性能。在SWE-Bench Lite数据集上,一个由开源SWE Agent组成的团队,在个体Agent最高解决率为27.3%的情况下,通过DEI框架实现了34.3%的解决率,提升了25%,超过了大多数闭源解决方案。最佳团队的解决率更是达到了55%,在SWE-Bench Lite上排名第一。

🎯 应用场景

DEI框架可应用于各种软件工程任务,如缺陷修复、代码生成、代码审查等。通过集成不同类型的Agent,可以构建一个强大的自动化软件工程平台,提高软件开发效率和质量。未来,DEI框架还可以扩展到其他领域,如自然语言处理、机器人等,通过集成不同类型的AI模型,解决更复杂的问题。

📄 摘要(原文)

Large language model (LLM) agents have shown great potential in solving real-world software engineering (SWE) problems. The most advanced open-source SWE agent can resolve over 27% of real GitHub issues in SWE-Bench Lite. However, these sophisticated agent frameworks exhibit varying strengths, excelling in certain tasks while underperforming in others. To fully harness the diversity of these agents, we propose DEI (Diversity Empowered Intelligence), a framework that leverages their unique expertise. DEI functions as a meta-module atop existing SWE agent frameworks, managing agent collectives for enhanced problem-solving. Experimental results show that a DEI-guided committee of agents is able to surpass the best individual agent's performance by a large margin. For instance, a group of open-source SWE agents, with a maximum individual resolve rate of 27.3% on SWE-Bench Lite, can achieve a 34.3% resolve rate with DEI, making a 25% improvement and beating most closed-source solutions. Our best-performing group excels with a 55% resolve rate, securing the highest ranking on SWE-Bench Lite. Our findings contribute to the growing body of research on collaborative AI systems and their potential to solve complex software engineering challenges.