ETR: Entropy Trend Reward for Efficient Chain-of-Thought Reasoning

📄 arXiv: 2604.05355v1 📥 PDF

作者: Xuan Xiong, Huan Liu, Li Gu, Zhixiang Chi, Yue Qiu, Yuanhao Yu, Yang Wang

分类: cs.AI, cs.CL

发布日期: 2026-04-07

备注: ACL 2026 (Main)

🔗 代码/项目: GITHUB


💡 一句话要点

提出熵趋势奖励ETR,提升思维链推理效率与准确率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 熵趋势奖励 强化学习 语言模型优化 不确定性建模

📋 核心要点

  1. 现有CoT方法依赖长度惩罚或全局熵降低,忽略了推理过程中不确定性变化轨迹对效率的影响。
  2. 论文提出熵趋势奖励(ETR),鼓励推理过程逐步降低不确定性,同时允许局部探索,优化推理轨迹。
  3. 实验表明,ETR能显著提升模型准确率,同时大幅缩短CoT长度,实现更好的效率-准确率平衡。

📝 摘要(中文)

思维链(CoT)推理能够提升大型语言模型在复杂任务上的性能,但通常会产生过长且低效的推理过程。现有方法通过长度惩罚或全局熵降低来缩短CoT,隐含地假设在整个推理过程中低不确定性是理想的。然而,本文表明推理效率是由不确定性的轨迹决定的。具有显著下降熵趋势的CoT明显更短。受此启发,本文提出熵趋势奖励(ETR),这是一种轨迹感知的目标,鼓励逐步降低不确定性,同时允许有限的局部探索。本文将ETR集成到Group Relative Policy Optimization (GRPO)中,并在多个推理模型和具有挑战性的基准测试中对其进行评估。ETR始终如一地实现了卓越的准确率-效率权衡,在四个基准测试中,将DeepSeek-R1-Distill-7B的准确率提高了9.9%,同时将CoT长度减少了67%。代码已开源。

🔬 方法详解

问题定义:现有思维链(CoT)方法在提升大型语言模型推理能力的同时,也带来了推理过程冗长、效率低下的问题。现有方法,如长度惩罚和全局熵降低,试图缩短CoT,但它们隐含地假设整个推理过程都应该保持低不确定性,忽略了推理过程中不确定性变化轨迹的重要性。这些方法未能充分利用不确定性轨迹的信息来指导更高效的推理。

核心思路:论文的核心思路是,推理效率的关键在于不确定性的变化趋势,而非绝对的不确定性水平。具体来说,论文发现具有显著下降熵趋势的CoT通常更短。因此,论文提出通过奖励那些能够降低不确定性的推理步骤,来引导模型生成更高效的CoT。这种方法允许模型在局部进行探索,但总体上鼓励不确定性逐步降低。

技术框架:论文将提出的熵趋势奖励(ETR)集成到Group Relative Policy Optimization (GRPO)框架中。GRPO是一种强化学习方法,用于优化语言模型的推理过程。整个框架包含以下几个主要阶段:1) 使用语言模型生成CoT推理轨迹;2) 计算每个推理步骤的熵,并根据熵的变化趋势计算奖励;3) 使用GRPO算法,根据奖励更新语言模型的策略,使其更倾向于生成具有下降熵趋势的CoT。

关键创新:论文最重要的技术创新点在于提出了熵趋势奖励(ETR)这一概念。与现有方法不同,ETR关注的是推理过程中不确定性的变化轨迹,而非仅仅关注CoT的长度或全局熵。通过奖励那些能够降低不确定性的推理步骤,ETR能够更有效地引导模型生成更高效的CoT。此外,ETR允许模型在局部进行探索,避免了过度约束推理过程。

关键设计:ETR的关键设计在于如何计算熵趋势奖励。论文使用以下公式计算奖励:r_t = -α * (H_t - H_{t-1}),其中H_t表示第t个推理步骤的熵,α是一个超参数,用于控制奖励的强度。该公式表明,如果当前步骤的熵低于上一步骤,则获得正向奖励,反之则获得负向奖励。此外,论文还使用了Group Relative Policy Optimization (GRPO)算法来优化语言模型的策略。GRPO通过比较不同CoT轨迹的奖励,来更新模型的策略,使其更倾向于生成具有更高奖励的轨迹。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ETR在多个基准测试中显著提升了模型的准确率和效率。例如,在DeepSeek-R1-Distill-7B模型上,ETR在四个基准测试中将准确率提高了9.9%,同时将CoT长度减少了67%。这些结果表明,ETR能够有效地引导模型生成更高效、更准确的推理过程。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的场景,例如问答系统、数学问题求解、代码生成等。通过提高推理效率和准确率,可以降低计算成本,提升用户体验,并推动大型语言模型在实际应用中的普及。未来,该方法可以进一步扩展到其他类型的推理任务和模型。

📄 摘要(原文)

Chain-of-thought (CoT) reasoning improves large language model performance on complex tasks, but often produces excessively long and inefficient reasoning traces. Existing methods shorten CoTs using length penalties or global entropy reduction, implicitly assuming that low uncertainty is desirable throughout reasoning. We show instead that reasoning efficiency is governed by the trajectory of uncertainty. CoTs with dominant downward entropy trends are substantially shorter. Motivated by this insight, we propose Entropy Trend Reward (ETR), a trajectory-aware objective that encourages progressive uncertainty reduction while allowing limited local exploration. We integrate ETR into Group Relative Policy Optimization (GRPO) and evaluate it across multiple reasoning models and challenging benchmarks. ETR consistently achieves a superior accuracy-efficiency tradeoff, improving DeepSeek-R1-Distill-7B by 9.9% in accuracy while reducing CoT length by 67% across four benchmarks. Code is available at https://github.com/Xuan1030/ETR