Context as a Tool: Context Management for Long-Horizon SWE-Agents

📄 arXiv: 2512.22087v1 📥 PDF

作者: Shukai Liu, Jian Yang, Bo Jiang, Yizhi Li, Jinyang Guo, Xianglong Liu, Bryan Dai

分类: cs.CL

发布日期: 2025-12-26


💡 一句话要点

提出CAT框架,通过可调用工具管理上下文,提升长程软件工程Agent性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 软件工程Agent 上下文管理 长程推理 大型语言模型 代码理解

📋 核心要点

  1. 现有Agent在长程软件工程任务中,依赖追加式上下文维护或被动触发的压缩策略,易导致上下文爆炸和推理能力下降。
  2. CAT框架将上下文维护作为Agent的可调用工具,主动压缩历史轨迹,形成可操作的摘要,优化上下文管理。
  3. 通过CAT-GENERATOR框架训练的SWE-Compressor模型,在SWE-Bench-Verified上显著优于现有方法,解决率达57.6%。

📝 摘要(中文)

本文提出了一种新的上下文管理范式CAT,旨在解决基于大型语言模型的Agent在处理需要与代码库进行长程交互的实际软件工程(SWE)任务时,面临的上下文爆炸、语义漂移和推理能力下降等问题。CAT将上下文维护提升为Agent决策过程中的可调用工具,构建了一个结构化的上下文工作空间,包含稳定的任务语义、精简的长期记忆和高保真的短期交互。此外,本文提出了一个基于离线数据构建流程的轨迹级监督框架CAT-GENERATOR,用于将上下文管理动作注入到完整的交互轨迹中,并使用该框架训练了一个上下文感知模型SWE-Compressor。在SWE-Bench-Verified上的实验表明,SWE-Compressor达到了57.6%的解决率,显著优于基于ReAct的Agent和静态压缩基线,同时在有限的上下文预算下保持了稳定和可扩展的长程推理能力。

🔬 方法详解

问题定义:现有基于LLM的软件工程Agent在处理长程任务时,由于上下文窗口限制,往往采用简单的追加式上下文维护策略,或者被动地进行上下文压缩。这导致上下文迅速膨胀,关键信息被稀释,Agent的推理能力下降,难以完成复杂的软件工程任务。现有方法缺乏对上下文的有效管理和控制。

核心思路:本文的核心思路是将上下文管理提升为Agent的一个主动行为,而不是被动的应对。通过将上下文维护模块设计成一个可调用的工具,Agent可以根据当前的任务状态和历史交互轨迹,主动地选择合适的时机进行上下文压缩,从而保持上下文的精简和有效性。这种主动式的上下文管理能够更好地应对长程任务中的信息过载问题。

技术框架:CAT框架包含三个主要组成部分:稳定的任务语义、精简的长期记忆和高保真的短期交互。Agent通过与环境交互,产生交互轨迹。CAT-GENERATOR框架用于生成带有上下文管理动作的训练数据,通过离线数据构建流程,将上下文管理动作注入到完整的交互轨迹中。SWE-Compressor是一个上下文感知的模型,用于预测何时以及如何进行上下文压缩。整体流程是,Agent在执行任务时,根据当前状态决定是否调用上下文管理工具,如果调用,则SWE-Compressor会生成压缩后的上下文,Agent继续基于更新后的上下文进行推理和决策。

关键创新:最重要的技术创新点在于将上下文管理从被动策略提升为Agent的主动行为。通过将上下文维护模块设计成一个可调用的工具,Agent可以根据当前的任务状态和历史交互轨迹,主动地选择合适的时机进行上下文压缩。这种主动式的上下文管理能够更好地应对长程任务中的信息过载问题。此外,CAT-GENERATOR框架提供了一种有效的训练数据生成方法,使得可以训练出上下文感知的压缩模型。

关键设计:CAT-GENERATOR框架通过专家策略来生成上下文管理动作,例如何时进行压缩,以及压缩哪些内容。SWE-Compressor模型采用Transformer架构,输入包括当前状态、历史交互轨迹和任务描述,输出是压缩后的上下文。损失函数的设计目标是使得SWE-Compressor能够模仿专家策略的上下文管理行为。具体的参数设置和网络结构细节在论文中有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SWE-Compressor在SWE-Bench-Verified数据集上达到了57.6%的解决率,显著优于基于ReAct的Agent和静态压缩基线。与ReAct-based Agent相比,性能提升超过10%。实验还证明了SWE-Compressor在有限的上下文预算下,能够保持稳定和可扩展的长程推理能力,验证了CAT框架的有效性。

🎯 应用场景

该研究成果可应用于各种需要长程交互和复杂推理的软件工程任务,例如代码修复、代码重构、缺陷定位等。通过有效管理上下文,Agent可以更好地理解代码库的结构和依赖关系,从而更高效地完成任务。此外,该方法还可以推广到其他需要长程记忆的Agent应用,例如对话系统、游戏AI等,具有广泛的应用前景。

📄 摘要(原文)

Agents based on large language models have recently shown strong potential on real-world software engineering (SWE) tasks that require long-horizon interaction with repository-scale codebases. However, most existing agents rely on append-only context maintenance or passively triggered compression heuristics, which often lead to context explosion, semantic drift, and degraded reasoning in long-running interactions. We propose CAT, a new context management paradigm that elevates context maintenance to a callable tool integrated into the decision-making process of agents. CAT formalizes a structured context workspace consisting of stable task semantics, condensed long-term memory, and high-fidelity short-term interactions, and enables agents to proactively compress historical trajectories into actionable summaries at appropriate milestones. To support context management for SWE-agents, we propose a trajectory-level supervision framework, CAT-GENERATOR, based on an offline data construction pipeline that injects context-management actions into complete interaction trajectories. Using this framework, we train a context-aware model, SWE-Compressor. Experiments on SWE-Bench-Verified demonstrate that SWE-Compressor reaches a 57.6% solved rate and significantly outperforms ReAct-based agents and static compression baselines, while maintaining stable and scalable long-horizon reasoning under a bounded context budget.