ENTRA: Entropy-Based Redundancy Avoidance in Large Language Model Reasoning
作者: Ruichu Cai, Haopeng Du, Qingwen Lin, Yutong Chen, Zijian Li, Boyan Xu
分类: cs.AI
发布日期: 2026-01-12
💡 一句话要点
ENTRA:提出基于熵的冗余避免框架,提升大语言模型推理效率。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 推理优化 冗余避免 熵 强化学习
📋 核心要点
- 大型推理模型存在过度思考问题,生成冗余推理链,导致计算开销大但性能提升有限。
- ENTRA框架通过熵来衡量token的重要性,并设计冗余奖励,利用强化学习抑制冗余推理。
- 实验表明,ENTRA在数学推理任务上显著减少输出长度,同时保持甚至提升了准确率。
📝 摘要(中文)
大型推理模型(LRMs)常常过度思考,即使对于简单任务也会生成不必要的长推理链。这导致大量的计算开销,而性能提升有限,主要原因是冗余验证和重复生成。以往的工作通常约束输出长度或优化正确性,但这种粗略的监督无法引导模型进行简洁而准确的推理。本文提出了ENTRA,一个基于熵的训练框架,可以在保持性能的同时抑制冗余推理。ENTRA首先使用轻量级的双向重要性估计(BIE)方法来估计token级别的重要性,该方法同时考虑了预测置信度和前向影响。然后,它基于低重要性token的熵计算冗余奖励,并将其除以理论上限进行归一化,并通过强化学习优化此奖励。在数学推理基准上的实验表明,ENTRA可以将输出长度减少37%到53%,并且不会损失准确性,在某些情况下甚至可以提高准确性。我们的方法为减少LRM中的过度思考提供了一种原则性和高效的解决方案,并为面向冗余感知的推理优化提供了一条通用路径。
🔬 方法详解
问题定义:大型推理模型在推理过程中存在过度思考的问题,即使对于简单的任务也会生成过长的推理链,导致计算资源的浪费,并且性能的提升并不明显。现有的方法主要集中在约束输出长度或者优化正确性,但是这些方法无法有效地指导模型进行简洁而准确的推理,缺乏对冗余信息的有效抑制。
核心思路:ENTRA的核心思路是通过熵来衡量模型在推理过程中每个token的重要性,并基于此设计一个冗余奖励。通过降低低重要性token的概率,从而鼓励模型生成更简洁的推理过程。这种方法的核心在于,通过对token级别的重要性进行建模,可以更精细地控制模型的推理过程,避免冗余信息的产生。
技术框架:ENTRA框架主要包含两个核心模块:双向重要性估计(BIE)模块和基于强化学习的优化模块。首先,BIE模块用于估计每个token的重要性,它同时考虑了token的预测置信度和对后续token的影响。然后,基于token的重要性,计算冗余奖励,该奖励基于低重要性token的熵,并进行归一化。最后,通过强化学习算法,优化模型,使其能够最大化奖励,从而减少冗余推理。
关键创新:ENTRA的关键创新在于提出了基于熵的冗余奖励,并将其应用于强化学习框架中,以优化大型推理模型的推理过程。与以往的方法不同,ENTRA不是简单地约束输出长度或者优化正确性,而是通过对token级别的重要性进行建模,从而更精细地控制模型的推理过程。此外,BIE模块的设计也考虑了token的前向影响,从而更准确地估计token的重要性。
关键设计:BIE模块使用一个轻量级的双向网络来估计token的重要性,该网络同时考虑了token的预测置信度和对后续token的影响。冗余奖励的计算基于低重要性token的熵,并使用理论上限进行归一化,以保证奖励的稳定性和有效性。强化学习算法使用PPO算法进行优化,奖励函数的设计目标是最大化准确率,同时最小化冗余推理。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ENTRA在数学推理基准上取得了显著的效果。在减少输出长度37%到53%的情况下,准确率没有下降,甚至在某些情况下有所提升。这表明ENTRA能够有效地抑制冗余推理,同时保持模型的推理能力。与基线模型相比,ENTRA在推理效率和准确率之间取得了更好的平衡。
🎯 应用场景
ENTRA框架可应用于各种需要高效推理的大型语言模型应用场景,例如数学问题求解、代码生成、知识图谱推理等。通过减少冗余推理,可以显著降低计算成本,提高推理速度,并提升用户体验。该研究为开发更高效、更智能的推理系统提供了新的思路。
📄 摘要(原文)
Large Reasoning Models (LRMs) often suffer from overthinking, generating unnecessarily long reasoning chains even for simple tasks. This leads to substantial computational overhead with limited performance gain, primarily due to redundant verification and repetitive generation. While prior work typically constrains output length or optimizes correctness, such coarse supervision fails to guide models toward concise yet accurate inference. In this paper, we propose ENTRA, an entropy-based training framework that suppresses redundant reasoning while preserving performance. ENTRA first estimates the token-level importance using a lightweight Bidirectional Importance Estimation (BIE) method, which accounts for both prediction confidence and forward influence. It then computes a redundancy reward based on the entropy of low-importance tokens, normalized by its theoretical upper bound, and optimizes this reward via reinforcement learning. Experiments on mathematical reasoning benchmarks demonstrate that ENTRA reduces output length by 37% to 53% with no loss-and in some cases, gains-in accuracy. Our approach offers a principled and efficient solution to reduce overthinking in LRMs, and provides a generalizable path toward redundancy-aware reasoning optimization.