SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context
作者: Shuquan Lian, Juncheng Liu, Yazhe Chen, Yuhong Chen, Hui Li
分类: cs.AI, cs.CL
发布日期: 2026-04-13
🔗 代码/项目: GITHUB
💡 一句话要点
SWE-AGILE:提出动态推理上下文管理的软件Agent框架,提升软件工程任务效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 软件Agent 动态推理上下文 软件工程 上下文管理 深度推理
📋 核心要点
- 现有ReAct类方法在自主软件工程中缺乏深度推理能力,难以处理复杂情况。
- SWE-AGILE通过动态推理上下文管理,维护推理细节的滑动窗口和历史推理摘要,实现推理深度和效率的平衡。
- 实验表明,SWE-AGILE在SWE-Bench-Verified上取得了显著成果,为7B-8B模型设立了新标准。
📝 摘要(中文)
本文提出SWE-AGILE,一种新型软件Agent框架,旨在弥合推理深度、效率和上下文约束之间的差距。针对自主软件工程(SWE)中ReAct类方法缺乏深度分析和处理复杂边缘情况的显式System-2推理的问题,以及扩展CoT方法应用于多轮SWE任务时面临的上下文爆炸和“Lost-in-the-Middle”退化难题,SWE-AGILE引入了动态推理上下文策略。该策略维护一个“滑动窗口”式的详细推理,用于即时连续性,防止冗余的重新分析,同时将历史推理内容压缩成简洁的推理摘要。实验结果表明,SWE-AGILE仅使用2.2k轨迹和896个任务,就在SWE-Bench-Verified上为7B-8B模型设定了新的标准。代码已开源。
🔬 方法详解
问题定义:现有的基于ReAct风格的自主软件工程方法,缺乏显式的System-2推理,难以进行深度分析和处理复杂的边缘情况。而直接应用扩展的CoT(Chain-of-Thought)方法到多轮软件工程任务中,会面临上下文爆炸和“Lost-in-the-Middle”问题,即完整保留推理历史会导致上下文过长,性能下降;丢弃历史信息则会导致Agent在每一步都重复推理,效率低下。
核心思路:SWE-AGILE的核心思路是维护一个动态的推理上下文,在推理深度、效率和上下文约束之间找到平衡。它通过维护一个“滑动窗口”式的详细推理上下文,保证Agent可以基于最近的推理过程进行连续推理,避免重复分析。同时,将历史推理内容压缩成简洁的推理摘要,减少上下文长度,防止“Lost-in-the-Middle”问题。
技术框架:SWE-AGILE框架包含以下几个主要模块:1) 观察模块:接收环境信息和用户指令。2) 推理模块:利用LLM进行推理,生成行动计划。该模块是核心,采用了动态推理上下文管理策略。3) 行动模块:执行推理模块生成的行动计划。4) 记忆模块:存储推理历史,并生成推理摘要。整体流程是,Agent首先观察环境,然后利用动态推理上下文进行推理,生成行动计划并执行,最后将推理过程存储到记忆模块中,并生成摘要。
关键创新:SWE-AGILE的关键创新在于其动态推理上下文管理策略。与传统的ReAct方法相比,SWE-AGILE能够进行更深度的推理,并更好地处理复杂情况。与直接应用CoT的方法相比,SWE-AGILE能够有效地控制上下文长度,避免上下文爆炸和“Lost-in-the-Middle”问题。本质区别在于,SWE-AGILE不是简单地保留或丢弃推理历史,而是动态地管理推理上下文,根据需要保留详细信息或生成摘要。
关键设计:关于滑动窗口的大小,论文中可能存在超参数的选择,需要根据具体的任务和模型进行调整。推理摘要的生成方式,可能采用了某种压缩算法或LLM自身的摘要能力。损失函数方面,可能使用了标准的语言模型损失函数,或者针对软件工程任务进行了定制。网络结构方面,主要依赖于LLM本身,SWE-AGILE框架并没有引入新的网络结构。
🖼️ 关键图片
📊 实验亮点
SWE-AGILE在SWE-Bench-Verified基准测试中,仅使用2.2k轨迹和896个任务,就为7B-8B模型设立了新的性能标准。这表明SWE-AGILE框架在推理深度、效率和上下文管理方面具有显著优势,能够有效地提升软件Agent在复杂软件工程任务中的表现。
🎯 应用场景
SWE-AGILE框架可应用于各种需要复杂推理和决策的软件工程任务,例如代码生成、缺陷修复、需求分析等。该研究有助于提升软件开发的自动化程度和效率,降低开发成本,并有望推动AI在软件工程领域的更广泛应用。
📄 摘要(原文)
Prior representative ReAct-style approaches in autonomous Software Engineering (SWE) typically lack the explicit System-2 reasoning required for deep analysis and handling complex edge cases. While recent reasoning models demonstrate the potential of extended Chain-of-Thought (CoT), applying them to the multi-turn SWE task creates a fundamental dilemma: retaining full reasoning history leads to context explosion and
Lost-in-the-Middle'' degradation, while discarding it would force the agent to redundantly re-reason at every step. To address these challenges, we propose SWE-AGILE, a novel software agent framework designed to bridge the gap between reasoning depth, efficiency, and context constraints. SWE-AGILE introduces a Dynamic Reasoning Context strategy, maintaining asliding window'' of detailed reasoning for immediate continuity to prevent redundant re-analyzing, while compressing historical reasoning content into concise Reasoning Digests. Empirically, SWE-AGILE sets a new standard for 7B-8B models on SWE-Bench-Verified using only 2.2k trajectories and 896 tasks. Code is available at https://github.com/KDEGroup/SWE-AGILE.