SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

作者: Shuquan Lian, Juncheng Liu, Yazhe Chen, Yuhong Chen, Hui Li

分类: cs.AI, cs.CL

发布日期: 2026-04-13

🔗 代码/项目: GITHUB

💡 一句话要点

SWE-AGILE：提出动态推理上下文管理的软件Agent框架，提升软件工程任务效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 软件Agent 动态推理上下文 软件工程 上下文管理 深度推理

📋 核心要点

现有ReAct类方法在自主软件工程中缺乏深度推理能力，难以处理复杂情况。
SWE-AGILE通过动态推理上下文管理，维护推理细节的滑动窗口和历史推理摘要，实现推理深度和效率的平衡。
实验表明，SWE-AGILE在SWE-Bench-Verified上取得了显著成果，为7B-8B模型设立了新标准。

📝 摘要（中文）

本文提出SWE-AGILE，一种新型软件Agent框架，旨在弥合推理深度、效率和上下文约束之间的差距。针对自主软件工程（SWE）中ReAct类方法缺乏深度分析和处理复杂边缘情况的显式System-2推理的问题，以及扩展CoT方法应用于多轮SWE任务时面临的上下文爆炸和“Lost-in-the-Middle”退化难题，SWE-AGILE引入了动态推理上下文策略。该策略维护一个“滑动窗口”式的详细推理，用于即时连续性，防止冗余的重新分析，同时将历史推理内容压缩成简洁的推理摘要。实验结果表明，SWE-AGILE仅使用2.2k轨迹和896个任务，就在SWE-Bench-Verified上为7B-8B模型设定了新的标准。代码已开源。

🔬 方法详解

问题定义：现有的基于ReAct风格的自主软件工程方法，缺乏显式的System-2推理，难以进行深度分析和处理复杂的边缘情况。而直接应用扩展的CoT（Chain-of-Thought）方法到多轮软件工程任务中，会面临上下文爆炸和“Lost-in-the-Middle”问题，即完整保留推理历史会导致上下文过长，性能下降；丢弃历史信息则会导致Agent在每一步都重复推理，效率低下。

核心思路：SWE-AGILE的核心思路是维护一个动态的推理上下文，在推理深度、效率和上下文约束之间找到平衡。它通过维护一个“滑动窗口”式的详细推理上下文，保证Agent可以基于最近的推理过程进行连续推理，避免重复分析。同时，将历史推理内容压缩成简洁的推理摘要，减少上下文长度，防止“Lost-in-the-Middle”问题。

技术框架：SWE-AGILE框架包含以下几个主要模块：1) 观察模块：接收环境信息和用户指令。2) 推理模块：利用LLM进行推理，生成行动计划。该模块是核心，采用了动态推理上下文管理策略。3) 行动模块：执行推理模块生成的行动计划。4) 记忆模块：存储推理历史，并生成推理摘要。整体流程是，Agent首先观察环境，然后利用动态推理上下文进行推理，生成行动计划并执行，最后将推理过程存储到记忆模块中，并生成摘要。

关键创新：SWE-AGILE的关键创新在于其动态推理上下文管理策略。与传统的ReAct方法相比，SWE-AGILE能够进行更深度的推理，并更好地处理复杂情况。与直接应用CoT的方法相比，SWE-AGILE能够有效地控制上下文长度，避免上下文爆炸和“Lost-in-the-Middle”问题。本质区别在于，SWE-AGILE不是简单地保留或丢弃推理历史，而是动态地管理推理上下文，根据需要保留详细信息或生成摘要。

关键设计：关于滑动窗口的大小，论文中可能存在超参数的选择，需要根据具体的任务和模型进行调整。推理摘要的生成方式，可能采用了某种压缩算法或LLM自身的摘要能力。损失函数方面，可能使用了标准的语言模型损失函数，或者针对软件工程任务进行了定制。网络结构方面，主要依赖于LLM本身，SWE-AGILE框架并没有引入新的网络结构。

🖼️ 关键图片

📊 实验亮点

SWE-AGILE在SWE-Bench-Verified基准测试中，仅使用2.2k轨迹和896个任务，就为7B-8B模型设立了新的性能标准。这表明SWE-AGILE框架在推理深度、效率和上下文管理方面具有显著优势，能够有效地提升软件Agent在复杂软件工程任务中的表现。

🎯 应用场景

SWE-AGILE框架可应用于各种需要复杂推理和决策的软件工程任务，例如代码生成、缺陷修复、需求分析等。该研究有助于提升软件开发的自动化程度和效率，降低开发成本，并有望推动AI在软件工程领域的更广泛应用。

📄 摘要（原文）

Prior representative ReAct-style approaches in autonomous Software Engineering (SWE) typically lack the explicit System-2 reasoning required for deep analysis and handling complex edge cases. While recent reasoning models demonstrate the potential of extended Chain-of-Thought (CoT), applying them to the multi-turn SWE task creates a fundamental dilemma: retaining full reasoning history leads to context explosion and Lost-in-the-Middle'' degradation, while discarding it would force the agent to redundantly re-reason at every step. To address these challenges, we propose SWE-AGILE, a novel software agent framework designed to bridge the gap between reasoning depth, efficiency, and context constraints. SWE-AGILE introduces a Dynamic Reasoning Context strategy, maintaining asliding window'' of detailed reasoning for immediate continuity to prevent redundant re-analyzing, while compressing historical reasoning content into concise Reasoning Digests. Empirically, SWE-AGILE sets a new standard for 7B-8B models on SWE-Bench-Verified using only 2.2k trajectories and 896 tasks. Code is available at https://github.com/KDEGroup/SWE-AGILE.

SWE-AGILE: A Software Agent Framework for Efficiently Managing Dynamic Reasoning Context

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理