Escaping the Context Bottleneck: Active Context Curation for LLM Agents via Reinforcement Learning

📄 arXiv: 2604.11462v1 📥 PDF

作者: Xiaozhe Li, Tianyi Lyu, Yizhao Yang, Liang Shan, Siyi Yang, Ligao Zhang, Zhuoyi Huang, Qingwen Liu, Yang Li

分类: cs.AI

发布日期: 2026-04-13


💡 一句话要点

提出基于强化学习的主动上下文管理框架,解决LLM Agent长程任务中的上下文瓶颈问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 上下文管理 长程任务 自主Agent 信息过滤 策略模型

📋 核心要点

  1. LLM Agent在长程任务中受限于上下文长度,冗余信息干扰推理,导致性能下降,即“上下文瓶颈”问题。
  2. 论文提出ContextCurator框架,通过强化学习训练轻量级策略模型,主动管理上下文,过滤噪声并保留关键信息。
  3. 实验表明,该框架在WebArena和DeepSearch任务上提升了LLM Agent的成功率,并显著降低了token消耗。

📝 摘要(中文)

大型语言模型(LLMs)在长程任务中面临“上下文瓶颈”和“中间信息丢失”现象,冗长的环境信息会降低多轮交互中的推理能力。为了解决这个问题,我们引入了一个共生框架,将上下文管理与任务执行解耦。我们的架构将一个轻量级的、专门的策略模型ContextCurator与一个强大的冻结的基础模型TaskExecutor配对。ContextCurator通过强化学习进行训练,主动降低工作记忆中的信息熵,积极地修剪环境噪声,同时保留推理锚点,即对未来推导至关重要的稀疏数据点。在WebArena上,我们的框架将Gemini-3.0-flash的成功率从36.4%提高到41.2%,同时将token消耗降低了8.8%(从47.4K到43.3K)。在DeepSearch上,它实现了57.1%的成功率,相比之下为53.9%,同时将token消耗降低了8倍。值得注意的是,一个7B的ContextCurator匹配了GPT-4o的上下文管理性能,为自主长程Agent提供了一个可扩展且计算高效的范例。

🔬 方法详解

问题定义:LLM Agent在处理长程任务时,由于上下文窗口的限制,需要处理大量的环境信息。然而,并非所有信息都对任务完成有益,冗余和噪声信息会干扰LLM的推理能力,导致性能下降,这就是上下文瓶颈问题。现有方法通常采用简单的截断或滑动窗口策略,无法有效区分关键信息和噪声,导致信息丢失或噪声累积。

核心思路:论文的核心思路是将上下文管理从任务执行中解耦,引入一个专门的上下文管理模块ContextCurator。ContextCurator通过强化学习,学习主动选择和保留对任务完成至关重要的信息,同时过滤掉噪声信息,从而降低上下文的信息熵,提高LLM的推理效率和准确性。这种解耦的设计使得上下文管理可以独立优化,而无需修改底层的LLM。

技术框架:整体框架包含两个主要模块:TaskExecutor和ContextCurator。TaskExecutor是一个冻结的、预训练好的大型语言模型,负责执行具体的任务。ContextCurator是一个轻量级的策略模型,负责管理TaskExecutor的上下文。在每个时间步,ContextCurator观察当前的环境状态和TaskExecutor的输出,然后决定哪些信息需要保留在上下文中,哪些信息需要丢弃。TaskExecutor根据ContextCurator维护的上下文进行推理,并输出动作。整个过程通过强化学习进行训练,ContextCurator的目标是最大化TaskExecutor完成任务的奖励。

关键创新:最重要的技术创新点在于ContextCurator的主动上下文管理策略。与传统的被动式上下文管理方法不同,ContextCurator能够根据当前的状态和任务需求,动态地选择和过滤信息,从而更有效地利用有限的上下文窗口。此外,通过强化学习训练ContextCurator,使其能够学习到哪些信息对未来的推理至关重要,从而更好地保留推理锚点。

关键设计:ContextCurator采用轻量级的Transformer结构,以降低计算成本。强化学习的奖励函数设计为TaskExecutor完成任务的奖励,同时加入token消耗的惩罚项,以鼓励ContextCurator尽可能地减少上下文的长度。在训练过程中,使用策略梯度算法优化ContextCurator的策略。论文还探索了不同的上下文表示方法,例如使用LLM的embedding或直接使用原始文本。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,ContextCurator框架在WebArena任务上将Gemini-3.0-flash的成功率从36.4%提高到41.2%,同时token消耗降低了8.8%。在DeepSearch任务上,成功率从53.9%提高到57.1%,token消耗降低了8倍。更令人瞩目的是,一个7B的ContextCurator模型达到了GPT-4o的上下文管理性能,证明了该方法的可扩展性和计算效率。

🎯 应用场景

该研究成果可广泛应用于需要LLM Agent进行长程推理和决策的场景,例如智能客服、自动化流程管理、游戏AI、智能助手等。通过主动上下文管理,可以显著提升LLM Agent在复杂环境下的性能和效率,降低计算成本,并提高用户体验。未来,该技术有望进一步扩展到多模态环境和更复杂的任务中。

📄 摘要(原文)

Large Language Models (LLMs) struggle with long-horizon tasks due to the "context bottleneck" and the "lost-in-the-middle" phenomenon, where accumulated noise from verbose environments degrades reasoning over multi-turn interactions. To address this issue, we introduce a symbiotic framework that decouples context management from task execution. Our architecture pairs a lightweight, specialized policy model, ContextCurator, with a powerful frozen foundation model, TaskExecutor. Trained via reinforcement learning, ContextCurator actively reduces information entropy in the working memory. It aggressively prunes environmental noise while preserving reasoning anchors, that is, sparse data points that are critical for future deductions. On WebArena, our framework improves the success rate of Gemini-3.0-flash from 36.4% to 41.2% while reducing token consumption by 8.8% (from 47.4K to 43.3K). On DeepSearch, it achieves a 57.1% success rate, compared with 53.9%, while reducing token consumption by a factor of 8. Remarkably, a 7B ContextCurator matches the context management performance of GPT-4o, providing a scalable and computationally efficient paradigm for autonomous long-horizon agents.