Not All Tokens Learn Alike: Attention Entropy Reveals Heterogeneous Signals in RL Reasoning

📄 arXiv: 2605.07660v1 📥 PDF

作者: Gengyang Li, Zheng-Fan Wu, Siqi Bao, Yunfang Wu

分类: cs.CL

发布日期: 2026-05-08


💡 一句话要点

基于注意力熵的RL推理训练:揭示大模型Token级学习信号的异质性与优化机制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 强化学习 注意力熵 推理能力 模型后训练 梯度分析 优化策略

📋 核心要点

  1. 现有RL后训练方法通常对所有Token进行均匀加权,忽视了不同Token在推理过程中承担的学习信号异质性,导致优化效率低下。
  2. 论文引入注意力熵作为度量指标,将Token划分为提供稳定梯度的“锚点”与蕴含复杂推理信号的“探索者”,揭示了Token级更新的内在结构。
  3. 通过动态熵感知软加权干预,在Qwen3-8B-Base模型上将测试集平均性能从34.39提升至37.40,证明了差异化学习策略的有效性。

📝 摘要(中文)

基于强化学习(RL)的后训练已成为提升大语言模型推理能力的关键手段,但其Token级的学习信号机制尚不明确。本文通过注意力熵(Attention Entropy)研究了这些信号的异质性,该指标衡量了每个响应Token在上下文中获取支持的集中程度。研究发现,Token级RL目标具有稀疏可估计性,即仅使用20%的随机Token子集即可保留大部分性能,表明存在显著的冗余。进一步分析揭示了“锚点(Anchors)”与“探索者(Explorers)”的二元谱系:低熵的锚点提供稳定的优化骨干,但难以攻克复杂基准;高熵的探索者聚合了更广泛的上下文,虽梯度波动大,却蕴含硬推理信号。基于此,本文提出动态熵感知软加权干预策略,在Qwen3-8B-Base模型上实现了显著的推理性能提升。

🔬 方法详解

问题定义:现有大模型RL后训练普遍采用均匀的Token级损失加权,忽略了不同Token在推理任务中对梯度贡献的差异,导致模型在处理复杂推理任务时优化效率受限,且难以区分哪些Token真正贡献了核心逻辑。

核心思路:利用注意力熵量化Token获取上下文支持的集中度,将Token分为“锚点(低熵,稳定)”与“探索者(高熵,波动)”。通过分析二者的梯度几何特性,证明了均匀加权掩盖了推理训练中的关键异质性,并提出通过动态加权来平衡稳定性与探索性。

技术框架:首先通过注意力熵计算对Token进行分类;其次分析不同熵值Token的梯度分布与收敛行为;最后设计动态熵感知软加权机制,在训练过程中根据熵值实时调整各Token的损失权重,以优化模型对复杂推理路径的捕捉能力。

关键创新:首次从注意力熵视角揭示了RL推理训练中Token级信号的异质性谱系,打破了“所有Token同等重要”的假设,并证明了通过熵感知干预可以显著改善模型在复杂推理任务上的表现。

关键设计:引入注意力熵作为动态权重调节因子,通过实验排除了位置信息、预测熵及损失归一化等混淆变量的影响,确保了观察到的不对称性源于注意力机制的内在结构,并实现了对Qwen3-8B-Base的性能优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验表明,仅使用20%的随机Token子集即可维持大部分性能,证明了RL训练中存在高度冗余。通过动态熵感知软加权干预,Qwen3-8B-Base模型在Held-out测试集上的平均性能从34.39提升至37.40。研究通过严谨的控制变量分析,排除了位置与预测熵等干扰,确立了注意力熵作为优化诊断工具的有效性。

🎯 应用场景

该研究成果可直接应用于大语言模型的推理后训练阶段,特别是在数学、代码生成及复杂逻辑推理任务中。通过引入熵感知加权,开发者可以更高效地利用计算资源,提升模型在长链条推理任务中的准确性与稳定性,为构建更具逻辑深度和鲁棒性的AI系统提供理论指导与工程实践方案。

📄 摘要(原文)

Reinforcement-learning-based post-training has become a key approach for improving the reasoning ability of large language models, but its token-level learning signals remain poorly understood. This work studies their heterogeneity through attention entropy, which measures how concentrated or diffuse the contextual support is for each response token. We first show that token-level RL objectives are sparsely estimable: uniformly random 20 percent token subsets preserve much of the full-token held-out performance, suggesting substantial redundancy in token-level updates. However, entropy-structured subsets behave very differently. Low-attention-entropy tokens, which we call anchors, rely on concentrated support, produce stable gradients aligned with full-token updates, and provide a reliable optimization backbone, but tend to plateau on harder benchmarks. High-attention-entropy tokens, which we call explorers, aggregate more diffuse context and induce larger but more volatile gradients. Explorer-only training is unstable on average, though rare successful runs suggest that these tokens may contain useful hard-reasoning signals when optimization remains stable. We support this anchor-explorer spectrum with evidence-gathering analyses, entropy dynamics, gradient-geometry diagnostics, and controls showing that position, predictive entropy, and loss normalization do not explain the observed asymmetry. Finally, a dynamic entropy-aware soft-reweighting intervention improves Qwen3-8B-Base from 34.39 to 37.40 held-out average in the strongest setting. These findings suggest that attention entropy reveals optimization-relevant structure in token-level RL signals, and that uniform token averaging can obscure meaningful heterogeneity in reasoning post-training.