LongAct: Harnessing Intrinsic Activation Patterns for Long-Context Reinforcement Learning

📄 arXiv: 2604.14922v1 📥 PDF

作者: Bowen Ping, Zijun Chen, Tingfeng Hui, Qize Yu, Chenxuan Li, Junchi Yan, Baobao Chang

分类: cs.LG, cs.CL

发布日期: 2026-04-16


💡 一句话要点

LongAct:利用内在激活模式提升长文本强化学习性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本强化学习 稀疏更新 显著性引导 激活模式 大型语言模型

📋 核心要点

  1. 现有长文本强化学习方法侧重于奖励设计或数据合成,忽略了模型内在表征的指导作用。
  2. LongAct通过观察长文本处理中的高幅度激活,提出显著性引导的稀疏更新策略。
  3. 实验表明,LongAct在LongBench v2上提升约8%,增强了RULER基准上的泛化能力,并具有通用性。

📝 摘要(中文)

强化学习(RL)已成为增强大型语言模型(LLM)推理能力的关键驱动力。虽然最近的进展主要集中在奖励工程或数据合成上,但很少有研究利用模型固有的表征特性来指导训练过程。本文首先观察到在处理长文本时,查询和键向量中存在高幅度的激活。受到模型量化的启发——它确立了这种高幅度激活的重要性——以及长文本推理本质上呈现稀疏结构的洞察,我们假设这些权重是有效模型优化的关键驱动因素。基于此,我们提出了一种名为LongAct的策略,该策略将均匀更新转变为显著性引导的稀疏更新。通过选择性地更新与这些显著激活相关的权重,LongAct在LongBench v2上实现了约8%的改进,并增强了RULER基准上的泛化能力。此外,我们的方法表现出卓越的通用性,始终如一地提升了GRPO和DAPO等各种RL算法的性能。大量的消融研究表明,关注这些显著特征是释放长文本潜力的关键。

🔬 方法详解

问题定义:现有长文本强化学习方法在处理长序列时,效率和性能面临挑战。均匀更新所有参数计算成本高昂,且可能稀释关键信息。现有方法未能充分利用模型内在的激活模式来指导训练,导致优化效率低下。

核心思路:LongAct的核心思路是利用长文本处理过程中query和key向量中出现的高幅度激活作为模型优化的关键驱动因素。受到模型量化和长文本推理稀疏性的启发,该方法认为这些高幅度激活对应的权重对于模型性能至关重要,因此应该优先更新。

技术框架:LongAct方法主要包含以下步骤:1) 在长文本处理过程中,识别query和key向量中的高幅度激活;2) 基于这些激活的显著性,构建稀疏更新掩码;3) 在强化学习训练过程中,只更新与这些显著激活相关的权重,而忽略其他权重。该方法可以与现有的强化学习算法(如GRPO和DAPO)结合使用。

关键创新:LongAct的关键创新在于提出了显著性引导的稀疏更新策略,打破了传统的均匀更新模式。它通过关注模型内在的激活模式,实现了更高效和有效的模型优化。与现有方法相比,LongAct不需要额外的奖励工程或数据合成,而是直接利用模型自身的表征特性来提升性能。

关键设计:LongAct的关键设计包括:1) 高幅度激活的识别方法:具体如何定义和选择高幅度激活,可能涉及阈值设定或百分比选择等;2) 稀疏更新掩码的构建:如何将高幅度激活转化为稀疏更新掩码,确保只有相关的权重被更新;3) 与现有强化学习算法的集成:如何将LongAct无缝集成到现有的强化学习算法中,例如,在反向传播过程中应用稀疏更新掩码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LongAct在LongBench v2上取得了显著的性能提升,约8%。同时,在RULER基准测试中,LongAct展现了更强的泛化能力。更重要的是,LongAct具有良好的通用性,能够一致地提升GRPO和DAPO等多种强化学习算法的性能。消融实验进一步验证了关注显著特征对于释放长文本潜力的重要性。

🎯 应用场景

LongAct可应用于各种需要处理长文本序列的强化学习任务,例如:对话系统、文本摘要、机器翻译、代码生成等。该方法能够提升模型在长文本环境下的推理能力和泛化性能,降低计算成本,具有广泛的应用前景。未来,可以探索LongAct在其他领域的应用,例如:计算机视觉、语音识别等。

📄 摘要(原文)

Reinforcement Learning (RL) has emerged as a critical driver for enhancing the reasoning capabilities of Large Language Models (LLMs). While recent advancements have focused on reward engineering or data synthesis, few studies exploit the model's intrinsic representation characteristics to guide the training process. In this paper, we first observe the presence of high-magnitude activations within the query and key vectors when processing long contexts. Drawing inspiration from model quantization -- which establishes the criticality of such high-magnitude activations -- and the insight that long-context reasoning inherently exhibits a sparse structure, we hypothesize that these weights serve as the pivotal drivers for effective model optimization. Based on this insight, we propose LongAct, a strategy that shifts from uniform to saliency-guided sparse updates. By selectively updating only the weights associated with these significant activations, LongAct achieves an approximate 8% improvement on LongBench v2 and enhances generalization on the RULER benchmark. Furthermore, our method exhibits remarkable universality, consistently boosting performance across diverse RL algorithms such as GRPO and DAPO. Extensive ablation studies suggest that focusing on these salient features is key to unlocking long-context potential.