Scaling Long-Horizon LLM Agent via Context-Folding

📄 arXiv: 2510.11967v1 📥 PDF

作者: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen

分类: cs.CL, cs.LG

发布日期: 2025-10-13


💡 一句话要点

提出Context-Folding框架,解决LLM Agent长程任务中上下文长度限制问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长程任务 上下文管理 大型语言模型 强化学习 任务分解 上下文折叠 LLM Agent

📋 核心要点

  1. 现有LLM Agent在长程任务中面临上下文长度限制,阻碍了其处理复杂任务的能力。
  2. Context-Folding框架允许Agent将任务分解为子任务,并在完成后折叠上下文,保留关键信息。
  3. FoldGRPO强化学习框架通过过程奖励,鼓励Agent学习有效的任务分解和上下文管理策略。

📝 摘要(中文)

大型语言模型(LLM)Agent在长程任务中受到上下文长度的根本限制。本文提出Context-Folding框架,使Agent能够主动管理其工作上下文。Agent可以程序化地分支成子轨迹来处理子任务,并在完成后将其折叠,在保留结果简洁摘要的同时,压缩中间步骤。为了使这种行为可学习,我们开发了一个端到端强化学习框架FoldGRPO,该框架具有特定的过程奖励,以鼓励有效的任务分解和上下文管理。在复杂的长程任务(Deep Research和SWE)中,我们的折叠Agent在使用的活动上下文小10倍的情况下,与ReAct基线相匹配或优于ReAct基线,并且显著优于依赖于基于摘要的上下文管理的模型。

🔬 方法详解

问题定义:论文旨在解决大型语言模型Agent在长程任务中因上下文长度限制而导致的性能瓶颈。现有方法,如ReAct,虽然能一定程度解决问题,但仍需维护较长的上下文,效率较低。基于摘要的方法虽然能压缩上下文,但可能丢失关键信息,影响决策质量。

核心思路:论文的核心思路是让Agent具备主动管理上下文的能力,通过将长程任务分解为子任务,并在子任务完成后“折叠”上下文,只保留关键信息摘要。这种“折叠”操作既能减少上下文长度,又能保留任务关键信息,从而提高Agent的效率和性能。

技术框架:Context-Folding框架包含以下几个关键步骤:1) 任务分解:Agent将长程任务分解为一系列子任务。2) 子任务执行:Agent执行每个子任务,并记录执行过程中的关键信息。3) 上下文折叠:子任务完成后,Agent将子任务的上下文折叠成一个简洁的摘要,并将其添加到主上下文中。4) 决策:Agent基于当前上下文(包括折叠的摘要)做出下一步决策。FoldGRPO是一个端到端的强化学习框架,用于训练Context-Folding Agent。它通过特定的过程奖励来鼓励Agent学习有效的任务分解和上下文管理策略。

关键创新:Context-Folding的关键创新在于其主动管理上下文的能力。与传统的被动式上下文管理方法不同,Context-Folding允许Agent根据任务的需要动态地调整上下文长度,从而提高效率和性能。此外,FoldGRPO强化学习框架通过过程奖励,有效地引导Agent学习如何进行任务分解和上下文折叠。

关键设计:FoldGRPO框架使用特定的过程奖励来鼓励Agent学习有效的任务分解和上下文管理策略。这些奖励包括:1) 任务完成奖励:鼓励Agent完成子任务。2) 上下文长度惩罚:惩罚Agent使用过长的上下文。3) 信息保留奖励:奖励Agent在折叠上下文中保留关键信息。具体的网络结构和参数设置在论文中有详细描述,未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,在Deep Research和SWE等复杂长程任务中,Context-Folding Agent在使用的活动上下文小10倍的情况下,与ReAct基线相匹配或优于ReAct基线,并且显著优于依赖于基于摘要的上下文管理的模型。这证明了Context-Folding框架在长程任务中的有效性。

🎯 应用场景

Context-Folding框架具有广泛的应用前景,例如:复杂软件开发、科学研究、长期对话系统、机器人任务规划等。通过有效管理上下文,该框架可以使LLM Agent能够处理更复杂的任务,并提高其在实际应用中的效率和可靠性。未来,该技术有望推动人工智能在更多领域的应用。

📄 摘要(原文)

Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10$\times$ smaller and significantly outperforms models that rely on summarization-based context management.