Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

作者: Zhuoen Chen, Dongfang Li, Meishan Zhang, Baotian Hu, Min Zhang

分类: cs.CL, cs.AI

发布日期: 2026-02-09

备注: 26 pages, 7 figures. Code and models will be released

💡 一句话要点

提出基于强化学习的动态长文本推理框架，解决长文本处理中的效率和信息遗忘问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本推理 强化学习 记忆压缩 选择性召回 大型语言模型

📋 核心要点

现有长文本处理方法面临计算成本高、信息遗忘和上下文碎片化等挑战，限制了大型语言模型在长文本任务中的应用。
论文提出一种基于分块压缩和选择性记忆召回的框架，通过学习压缩器和动态门控机制，实现高效的长文本推理。
实验结果表明，该方法在长文本推理任务上具有竞争力，并显著降低了GPU内存使用量和推理时间。

📝 摘要（中文）

大型语言模型(LLMs)在长文本处理中面临着显著的挑战，包括二次方级别的计算成本、信息遗忘以及检索增强生成(RAG)中固有的上下文碎片化问题。我们提出了一种受认知启发的框架，用于高效的长文本推理，该框架基于分块压缩和选择性记忆召回，而不是处理所有原始token。该框架将长输入分割成块，并使用学习到的压缩器将每个块编码成压缩的记忆表示。一个门控模块动态地选择相关的记忆块，然后由一个推理模块迭代地处理这些记忆块，该推理模块具有不断演化的工作记忆，以解决下游任务。压缩器和推理器通过端到端强化学习联合优化，而门控模块则作为分类器单独训练。实验结果表明，该方法在多跳推理基准测试（如RULER-HQA）上实现了具有竞争力的准确率，将上下文长度从7K外推到1.75M token，并且与强大的长文本基线相比，提供了良好的准确率-效率权衡。特别是，与MemAgent相比，它实现了高达2倍的峰值GPU内存使用量减少和6倍的推理速度提升。

🔬 方法详解

问题定义：现有的大型语言模型在处理长文本时，面临着计算复杂度高（通常是二次方级别）、信息容易遗忘，以及在使用检索增强生成（RAG）时出现的上下文碎片化问题。这些问题限制了LLM在需要处理大量上下文信息的任务中的应用，例如多跳推理、文档总结等。

核心思路：论文的核心思路是模仿人类的认知过程，将长文本分割成块，并对每个块进行压缩，形成记忆表示。然后，通过一个门控机制动态地选择与当前任务相关的记忆块，并使用一个推理模块迭代地处理这些记忆块，从而实现高效的长文本推理。这种方法避免了处理所有原始token，降低了计算成本，并减少了信息遗忘的风险。

技术框架：该框架主要包含三个模块：压缩器、门控模块和推理器。首先，压缩器将长输入分割成块，并将每个块编码成压缩的记忆表示。然后，门控模块根据当前任务和工作记忆，动态地选择相关的记忆块。最后，推理器迭代地处理这些记忆块，并更新工作记忆，最终完成下游任务。整个框架采用端到端的方式进行训练，其中压缩器和推理器通过强化学习联合优化，而门控模块则作为分类器单独训练。

关键创新：该论文的关键创新在于将分块压缩、选择性记忆召回和强化学习相结合，构建了一个高效的长文本推理框架。与传统的处理整个长文本的方法相比，该方法显著降低了计算成本和内存占用。与静态的记忆召回方法相比，该方法通过动态的门控机制，能够更好地选择与当前任务相关的记忆块。

关键设计：压缩器可以使用各种编码器，例如Transformer或LSTM。门控模块可以使用分类器，例如MLP或Transformer。推理器可以使用循环神经网络或Transformer。压缩器和推理器的联合优化通过强化学习实现，奖励函数可以根据下游任务的性能进行设计。具体来说，论文中使用了Actor-Critic算法进行训练，Actor负责选择动作（例如选择哪些记忆块），Critic负责评估动作的价值。

📊 实验亮点

实验结果表明，该方法在RULER-HQA等多跳推理基准测试上取得了具有竞争力的准确率，并且能够将上下文长度从7K外推到1.75M token。与MemAgent相比，该方法实现了高达2倍的峰值GPU内存使用量减少和6倍的推理速度提升。这些结果表明，该方法在长文本推理任务上具有显著的优势。

🎯 应用场景

该研究成果可应用于需要处理长文本的各种场景，例如：长文档问答、多跳推理、医学报告分析、法律文件处理等。通过降低计算成本和内存占用，该方法使得大型语言模型能够在资源受限的环境中处理更长的文本，从而扩展了LLM的应用范围。未来，该方法还可以与其他技术相结合，例如知识图谱和检索增强生成，以进一步提高长文本处理的性能。

📄 摘要（原文）

Large Language Models (LLMs) face significant challenges in long-context processing, including quadratic computational costs, information forgetting, and the context fragmentation inherent in retrieval-augmented generation (RAG). We propose a cognitively inspired framework for efficient long-context inference based on chunk-wise compression and selective memory recall, rather than processing all raw tokens. The framework segments long inputs into chunks and encodes each chunk into compressed memory representations using a learned compressor. A gating module dynamically selects relevant memory blocks, which are then iteratively processed by a reasoning module with an evolving working memory to solve downstream tasks. The compressor and reasoner are jointly optimized via end-to-end reinforcement learning, while the gating module is trained separately as a classifier. Experimental results show that the proposed method achieves competitive accuracy on multi-hop reasoning benchmarks such as RULER-HQA, extrapolates context length from 7K to 1.75M tokens, and offers a favorable accuracy-efficiency trade-off compared to strong long-context baselines. In particular, it achieves up to a 2 times reduction in peak GPU memory usage and a 6 times inference speedup over MemAgent.

Dynamic Long Context Reasoning over Compressed Memory via End-to-End Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理