InfoDensity: Rewarding Information-Dense Traces for Efficient Reasoning

📄 arXiv: 2603.17310v1 📥 PDF

作者: Chengwei Wei, Jung-jae Kim, Longyin Zhang, Shengkai Chen, Nancy F. Chen

分类: cs.AI, cs.CL

发布日期: 2026-03-18


💡 一句话要点

InfoDensity:通过奖励信息密集型推理轨迹提升LLM效率

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 推理效率 信息密度 奖励函数

📋 核心要点

  1. 现有LLM推理过程冗长,计算成本高,且现有强化学习方法忽略中间推理步骤质量,易受奖励利用影响。
  2. 论文提出InfoDensity奖励框架,鼓励信息密集型推理轨迹,通过AUC和单调性奖励来衡量推理质量。
  3. 实验表明,InfoDensity在保持或提升准确性的同时,显著减少token使用量,实现了更好的效率。
  4. 通过跟踪推理步骤中答案分布的条件熵,发现高质量的推理轨迹表现出两个一致的属性:低不确定性收敛和单调进展。

📝 摘要(中文)

具有扩展推理能力的大型语言模型(LLM)通常会生成冗长且重复的推理轨迹,导致不必要的计算成本。现有的强化学习方法虽然通过优化最终响应长度来解决这个问题,但忽略了中间推理步骤的质量,使模型容易受到奖励利用的影响。本文认为冗长不仅仅是长度问题,而是中间推理质量差的表现。通过跟踪推理步骤中答案分布的条件熵,发现高质量的推理轨迹表现出两个一致的属性:低不确定性收敛和单调进展。这些发现表明,高质量的推理轨迹是信息密集的,即每个步骤相对于总推理长度都有助于有意义的熵减少。受此启发,本文提出了InfoDensity,一个用于RL训练的奖励框架,它结合了基于AUC的奖励和单调性奖励,作为推理质量的统一度量,并由长度缩放项加权,该项倾向于以更简洁的方式实现同等质量。在数学推理基准上的实验表明,InfoDensity在准确性方面与最先进的基线相匹配或超过,同时显著减少了token使用量,实现了强大的准确性-效率权衡。

🔬 方法详解

问题定义:现有的大型语言模型在进行复杂推理时,会产生冗长且重复的推理过程,导致计算资源的浪费。现有的强化学习方法主要关注最终答案的长度,而忽略了中间推理步骤的质量,这使得模型容易通过一些“捷径”来获得高奖励,而并非真正提升推理能力。因此,如何引导LLM生成高质量、信息密集的推理轨迹是一个关键问题。

核心思路:论文的核心思路是奖励那些信息密度高的推理轨迹。具体来说,就是鼓励模型在推理过程中,每一步都能有效地减少答案的不确定性,并且整个推理过程呈现出单调进步的趋势。通过这种方式,模型能够学习到更加简洁、高效的推理策略,从而在保证准确率的同时,降低计算成本。

技术框架:InfoDensity框架主要包含以下几个部分:首先,通过计算每个推理步骤后答案分布的条件熵,来衡量该步骤的信息量。然后,使用基于AUC的奖励来鼓励低不确定性收敛,即答案分布的熵值在推理过程中逐渐降低。同时,引入单调性奖励,确保推理过程是稳定进步的,避免出现推理质量的倒退。最后,使用一个长度缩放项对总奖励进行调整,鼓励模型在保证推理质量的前提下,尽可能地减少推理步骤。

关键创新:InfoDensity的关键创新在于其对推理质量的定义和奖励方式。与以往只关注最终答案长度的方法不同,InfoDensity关注的是中间推理步骤的信息密度和推理过程的单调性。通过将AUC奖励和单调性奖励相结合,并使用长度缩放项进行调整,InfoDensity能够更有效地引导模型学习到高质量的推理策略。

关键设计:InfoDensity框架的关键设计包括:1) 使用条件熵来衡量答案分布的不确定性;2) 使用AUC来衡量整个推理过程中熵值的下降程度;3) 使用单调性奖励来确保推理过程的稳定进步;4) 使用长度缩放项来平衡推理质量和推理长度。具体的损失函数是AUC-based reward和monotonicity reward的加权和,再乘以一个与长度相关的缩放因子。这个缩放因子鼓励模型在保证推理质量的前提下,尽可能地减少推理步骤。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,InfoDensity在数学推理基准上取得了显著的性能提升。例如,在某些数据集上,InfoDensity在保持或超过现有最佳模型准确率的同时,token使用量减少了20%以上。这表明InfoDensity能够有效地引导LLM生成更加简洁、高效的推理轨迹,实现了准确性和效率的良好平衡。

🎯 应用场景

InfoDensity框架可应用于各种需要复杂推理的LLM应用场景,例如数学问题求解、代码生成、知识图谱推理等。通过提高推理效率,可以降低计算成本,并使LLM能够在资源受限的环境中运行。此外,InfoDensity还可以作为一种通用的奖励机制,用于训练其他类型的AI模型,提升其推理能力和效率。

📄 摘要(原文)

Large Language Models (LLMs) with extended reasoning capabilities often generate verbose and redundant reasoning traces, incurring unnecessary computational cost. While existing reinforcement learning approaches address this by optimizing final response length, they neglect the quality of intermediate reasoning steps, leaving models vulnerable to reward hacking. We argue that verbosity is not merely a length problem, but a symptom of poor intermediate reasoning quality. To investigate this, we conduct an empirical study tracking the conditional entropy of the answer distribution across reasoning steps. We find that high-quality reasoning traces exhibit two consistent properties: low uncertainty convergence and monotonic progress. These findings suggest that high-quality reasoning traces are informationally dense, that is, each step contributes meaningful entropy reduction relative to the total reasoning length. Motivated by this, we propose InfoDensity, a reward framework for RL training that combines an AUC-based reward and a monotonicity reward as a unified measure of reasoning quality, weighted by a length scaling term that favors achieving equivalent quality more concisely. Experiments on mathematical reasoning benchmarks demonstrate that InfoDensity matches or surpasses state-of-the-art baselines in accuracy while significantly reducing token usage, achieving a strong accuracy-efficiency trade-off.