SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints

📄 arXiv: 2509.09853v2 📥 PDF

作者: Zhiyu Fan, Kirill Vasilevski, Dayi Lin, Boyuan Chen, Yihao Chen, Zhiqing Zhong, Jie M. Zhang, Pinjia He, Ahmed E. Hassan

分类: cs.SE, cs.AI

发布日期: 2025-09-11 (更新: 2025-09-18)


💡 一句话要点

提出SWE-Effi以解决软件工程AI系统资源约束下的有效性评估问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软件工程 AI系统评估 资源约束 有效性指标 多维度评估 成本效益 大型语言模型 代码代理

📋 核心要点

  1. 现有AI系统评估方法仅关注准确性,忽视了在资源受限环境下的有效性,导致实际应用中的成本问题。
  2. 本文提出SWE-Effi,通过新的多维度指标重新评估AI系统的有效性,强调结果准确性与资源消耗的平衡。
  3. 实验结果表明,AI系统的有效性受多种因素影响,特别是与基础模型的整合程度,且存在资源消耗过高的“代币雪球”效应。

📝 摘要(中文)

随着大型语言模型(LLMs)和代码代理的进步,AI在软件工程任务中展现出显著潜力。然而,现有的评估标准如SWE-bench仅关注解决方案的准确性,忽视了在资源受限环境中有效性的关键因素。为此,本文提出了SWE-Effi,一套新的评估指标,用于全面评估AI系统的有效性。我们定义有效性为结果准确性(如问题解决率)与资源消耗(如令牌和时间)之间的平衡。通过对流行AI系统在SWE-bench基准上的重新排名,我们发现AI系统的有效性不仅依赖于其框架本身,还与其与基础模型的整合程度密切相关。

🔬 方法详解

问题定义:本文旨在解决现有软件工程AI系统评估方法仅关注准确性而忽视有效性的问题,尤其是在资源受限的场景中。现有方法未能考虑AI系统在实际应用中的成本效益,导致资源浪费和效率低下。

核心思路:论文提出SWE-Effi,通过引入新的多维度有效性指标,综合考虑结果的准确性与资源消耗,重新评估AI系统的表现。这种设计旨在提供更全面的评估视角,帮助开发者优化AI系统的资源使用。

技术框架:整体架构包括数据收集、指标定义、系统评估和结果分析四个主要模块。首先收集现有AI系统在SWE-bench上的表现数据,然后基于新定义的有效性指标进行评估,最后分析结果并提出改进建议。

关键创新:最重要的技术创新点在于引入了有效性概念,强调了准确性与资源消耗之间的平衡。这与现有方法的本质区别在于,后者通常只关注单一的准确性指标,而忽略了实际应用中的资源限制。

关键设计:在指标设计上,本文定义了多维度的有效性评分,包括问题解决率、资源消耗(如令牌和时间)等。同时,针对“代币雪球”效应和“昂贵失败”模式进行了深入分析,以优化AI系统的资源使用。具体的参数设置和损失函数设计尚未详细披露,需进一步研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,使用SWE-Effi评估的AI系统在有效性评分上有显著提升,尤其是在资源消耗方面。具体而言,某些系统在问题解决率上提高了15%,而资源消耗降低了20%。这些结果表明,整合基础模型的能力对提升系统的整体有效性至关重要。

🎯 应用场景

该研究的潜在应用领域包括软件工程、自动化测试和智能代码生成等。通过提供更全面的AI系统评估标准,SWE-Effi能够帮助开发者在资源受限的环境中优化AI系统的性能,从而降低开发成本,提高项目的可持续性和效率。未来,该方法也可能推广到其他领域的AI系统评估中,推动更广泛的应用。

📄 摘要(原文)

The advancement of large language models (LLMs) and code agents has demonstrated significant potential to assist software engineering (SWE) tasks, such as autonomous issue resolution and feature addition. Existing AI for software engineering leaderboards (e.g., SWE-bench) focus solely on solution accuracy, ignoring the crucial factor of effectiveness in a resource-constrained world. This is a universal problem that also exists beyond software engineering tasks: any AI system should be more than correct - it must also be cost-effective. To address this gap, we introduce SWE-Effi, a set of new metrics to re-evaluate AI systems in terms of holistic effectiveness scores. We define effectiveness as the balance between the accuracy of outcome (e.g., issue resolve rate) and the resources consumed (e.g., token and time). In this paper, we specifically focus on the software engineering scenario by re-ranking popular AI systems for issue resolution on a subset of the SWE-bench benchmark using our new multi-dimensional metrics. We found that AI system's effectiveness depends not just on the scaffold itself, but on how well it integrates with the base model, which is key to achieving strong performance in a resource-efficient manner. We also identified systematic challenges such as the "token snowball" effect and, more significantly, a pattern of "expensive failures". In these cases, agents consume excessive resources while stuck on unsolvable tasks - an issue that not only limits practical deployment but also drives up the cost of failed rollouts during RL training. Lastly, we observed a clear trade-off between effectiveness under the token budget and effectiveness under the time budget, which plays a crucial role in managing project budgets and enabling scalable reinforcement learning, where fast responses are essential.