Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning

📄 arXiv: 2602.22642 📥 PDF

作者: Qin-Wen Luo, Sheng Ren, Xiang Chen, Rui Liu, Jun Fang, Naiqiang Tan, Sheng-Jun Huang

分类: cs.LG

发布日期: 2026-02-28


💡 一句话要点

提出难度感知熵正则化方法,提升LLM推理效率并保持精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理效率 强化学习 熵正则化 难度感知

📋 核心要点

  1. 现有LLM压缩方法为缩短推理链,易导致熵崩溃,牺牲难题的推理能力。
  2. CEEH方法核心在于难度感知,对简单问题压缩,对难题保持探索空间。
  3. 实验表明,CEEH在降低推理长度的同时,保持甚至提升了推理精度。

📝 摘要(中文)

Chain-of-Thought (CoT) 显著提升了大型语言模型 (LLM) 处理复杂推理任务的能力,但显式推理步骤的冗长性导致了过高的推理延迟和计算成本,限制了实际部署。现有的压缩方法,如自训练和带有长度约束的强化学习 (RL),虽然试图缓解这个问题,但往往牺牲了推理能力以换取简洁性。这些方法的一个关键失败模式是:显式地优化更短的轨迹会触发快速的熵崩溃,从而过早地缩小探索空间,并抑制了有效推理路径的发现,特别是对于需要大量演绎的具有挑战性的问题。为了解决这个问题,我们提出了一种基于 RL 的高效推理的难度感知方法:Compress responses for Easy questions and Explore Hard ones (CEEH)。CEEH 动态评估实例难度以应用选择性熵正则化:它为当前难题保留了多样化的搜索空间以确保鲁棒性,同时允许对推理路径已建立的简单实例进行积极压缩。此外,我们引入了一种动态最优长度惩罚,锚定到历史上最短的正确响应,有效地抵消了熵引起的长度膨胀并稳定了奖励信号。在六个推理基准测试中,CEEH 始终在降低响应长度的同时保持与基础模型相当的准确性,并且相对于仅长度优化提高了 Pass@k。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在进行复杂推理时,通常采用Chain-of-Thought (CoT) 方法,生成冗长的推理步骤,导致推理延迟高、计算成本大。现有的压缩方法,例如自训练和强化学习,虽然试图缩短推理链,但往往会牺牲推理的准确性,尤其是在处理难题时,容易陷入“熵崩溃”,过早地缩小搜索空间,无法找到正确的推理路径。

核心思路:CEEH的核心思路是根据问题的难度动态地调整压缩策略。对于简单的问题,可以进行更积极的压缩,因为其推理路径相对明确;而对于困难的问题,则需要保持更大的探索空间,避免过早收敛到次优解。通过难度感知的熵正则化,CEEH能够在保证推理准确性的前提下,有效地缩短推理链,提高推理效率。

技术框架:CEEH方法主要基于强化学习框架。首先,模型根据输入问题生成推理链;然后,通过奖励函数评估推理链的质量,奖励函数综合考虑了推理的正确性和长度。CEEH的关键在于,它引入了难度感知的熵正则化项,该正则化项根据问题的难度动态地调整熵的权重。此外,CEEH还引入了一种动态最优长度惩罚,以防止熵正则化导致的推理链长度膨胀。

关键创新:CEEH最重要的创新点在于难度感知的熵正则化。与传统的熵正则化方法不同,CEEH能够根据问题的难度动态地调整熵的权重,从而在保证推理准确性的前提下,有效地缩短推理链。这种难度感知的策略使得模型能够更好地平衡探索和利用,避免陷入局部最优解。

关键设计:CEEH的关键设计包括:1) 难度评估机制:用于评估问题的难度,例如可以通过模型在少量样本上的表现来估计难度。2) 动态熵正则化权重:根据问题难度动态调整熵正则化项的权重,难题权重高,简单问题权重低。3) 动态最优长度惩罚:锚定到历史上最短的正确响应,防止熵正则化导致的长度膨胀,稳定奖励信号。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CEEH在六个推理基准测试中表现出色,能够在保持与基础模型相当的准确性的前提下,显著降低响应长度。相对于仅长度优化的方法,CEEH还提高了 Pass@k 指标,表明其在保证推理质量的同时,实现了更高效的推理。

🎯 应用场景

CEEH方法可应用于各种需要高效LLM推理的场景,例如智能客服、自动问答系统、代码生成等。通过降低推理延迟和计算成本,CEEH能够提升用户体验,并降低部署成本。未来,该方法有望进一步扩展到更复杂的推理任务和更广泛的应用领域。

📄 摘要(原文)

Chain-of-Thought (CoT) has substantially empowered Large Language Models (LLMs) to tackle complex reasoning tasks, yet the verbose nature of explicit reasoning steps incurs prohibitive inference latency and computational costs, limiting real-world deployment. While existing compression methods - ranging from self-training to Reinforcement Learning (RL) with length constraints - attempt to mitigate this, they often sacrifice reasoning capability for brevity. We identify a critical failure mode in these approaches: explicitly optimizing for shorter trajectories triggers rapid entropy collapse, which prematurely shrinks the exploration space and stifles the discovery of valid reasoning paths, particularly for challenging questions requiring extensive deduction. To address this issue, we propose Compress responses for Easy questions and Explore Hard ones (CEEH), a difficulty-aware approach to RL-based efficient reasoning. CEEH dynamically assesses instance difficulty to apply selective entropy regularization: it preserves a diverse search space for currently hard questions to ensure robustness, while permitting aggressive compression on easier instances where the reasoning path is well-established. In addition, we introduce a dynamic optimal-length penalty anchored to the historically shortest correct response, which effectively counteracts entropy-induced length inflation and stabilizes the reward signal. Across six reasoning benchmarks, CEEH consistently reduces response length while maintaining accuracy comparable to the base model, and improves Pass@k relative to length-only optimization.