Scaling Long-Horizon LLM Agent via Context-Folding

作者: Weiwei Sun, Miao Lu, Zhan Ling, Kang Liu, Xuesong Yao, Yiming Yang, Jiecao Chen

分类: cs.CL, cs.LG

发布日期: 2025-10-13

💡 一句话要点

提出Context-Folding框架，解决LLM Agent长程任务中上下文长度限制问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长程任务 上下文管理 大型语言模型 强化学习 任务分解 上下文折叠 LLM Agent

📋 核心要点

现有LLM Agent在长程任务中面临上下文长度限制，阻碍了其处理复杂任务的能力。
Context-Folding框架允许Agent将任务分解为子任务，并在完成后折叠上下文，保留关键信息。
FoldGRPO强化学习框架通过过程奖励，鼓励Agent学习有效的任务分解和上下文管理策略。

📝 摘要（中文）

大型语言模型（LLM）Agent在长程任务中受到上下文长度的根本限制。本文提出Context-Folding框架，使Agent能够主动管理其工作上下文。Agent可以程序化地分支成子轨迹来处理子任务，并在完成后将其折叠，在保留结果简洁摘要的同时，压缩中间步骤。为了使这种行为可学习，我们开发了一个端到端强化学习框架FoldGRPO，该框架具有特定的过程奖励，以鼓励有效的任务分解和上下文管理。在复杂的长程任务（Deep Research和SWE）中，我们的折叠Agent在使用的活动上下文小10倍的情况下，与ReAct基线相匹配或优于ReAct基线，并且显著优于依赖于基于摘要的上下文管理的模型。

🔬 方法详解

问题定义：论文旨在解决大型语言模型Agent在长程任务中因上下文长度限制而导致的性能瓶颈。现有方法，如ReAct，虽然能一定程度解决问题，但仍需维护较长的上下文，效率较低。基于摘要的方法虽然能压缩上下文，但可能丢失关键信息，影响决策质量。

核心思路：论文的核心思路是让Agent具备主动管理上下文的能力，通过将长程任务分解为子任务，并在子任务完成后“折叠”上下文，只保留关键信息摘要。这种“折叠”操作既能减少上下文长度，又能保留任务关键信息，从而提高Agent的效率和性能。

技术框架：Context-Folding框架包含以下几个关键步骤：1) 任务分解：Agent将长程任务分解为一系列子任务。2) 子任务执行：Agent执行每个子任务，并记录执行过程中的关键信息。3) 上下文折叠：子任务完成后，Agent将子任务的上下文折叠成一个简洁的摘要，并将其添加到主上下文中。4) 决策：Agent基于当前上下文（包括折叠的摘要）做出下一步决策。FoldGRPO是一个端到端的强化学习框架，用于训练Context-Folding Agent。它通过特定的过程奖励来鼓励Agent学习有效的任务分解和上下文管理策略。

关键创新：Context-Folding的关键创新在于其主动管理上下文的能力。与传统的被动式上下文管理方法不同，Context-Folding允许Agent根据任务的需要动态地调整上下文长度，从而提高效率和性能。此外，FoldGRPO强化学习框架通过过程奖励，有效地引导Agent学习如何进行任务分解和上下文折叠。

关键设计：FoldGRPO框架使用特定的过程奖励来鼓励Agent学习有效的任务分解和上下文管理策略。这些奖励包括：1) 任务完成奖励：鼓励Agent完成子任务。2) 上下文长度惩罚：惩罚Agent使用过长的上下文。3) 信息保留奖励：奖励Agent在折叠上下文中保留关键信息。具体的网络结构和参数设置在论文中有详细描述，未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在Deep Research和SWE等复杂长程任务中，Context-Folding Agent在使用的活动上下文小10倍的情况下，与ReAct基线相匹配或优于ReAct基线，并且显著优于依赖于基于摘要的上下文管理的模型。这证明了Context-Folding框架在长程任务中的有效性。

🎯 应用场景

Context-Folding框架具有广泛的应用前景，例如：复杂软件开发、科学研究、长期对话系统、机器人任务规划等。通过有效管理上下文，该框架可以使LLM Agent能够处理更复杂的任务，并提高其在实际应用中的效率和可靠性。未来，该技术有望推动人工智能在更多领域的应用。

📄 摘要（原文）

Large language model (LLM) agents are fundamentally constrained by context length on long-horizon tasks. We introduce Context-Folding, a framework that empowers agents to actively manage their working context. An agent can procedurally branch into a sub-trajectory to handle a subtask and then fold it upon completion, collapsing the intermediate steps while retaining a concise summary of the outcome. To make this behavior learnable, we develop an end-to-end reinforcement learning framework FoldGRPO with specific process rewards to encourage effective task decomposition and context management. On complex long-horizon tasks (Deep Research and SWE), our folding agent matches or outperforms the ReAct baselines while using an active context 10$\times$ smaller and significantly outperforms models that rely on summarization-based context management.

Scaling Long-Horizon LLM Agent via Context-Folding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理