Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning

作者: Qin-Wen Luo, Sheng Ren, Xiang Chen, Rui Liu, Jun Fang, Naiqiang Tan, Sheng-Jun Huang

分类: cs.LG

发布日期: 2026-02-26

💡 一句话要点

提出难度感知熵正则化方法CEEH，提升LLM推理效率并保持精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 链式思考 推理效率 强化学习 熵正则化

📋 核心要点

现有LLM压缩方法为追求推理速度，牺牲了复杂问题上的推理能力，导致探索空间快速坍塌。
CEEH方法通过难度感知的熵正则化，对简单问题进行压缩，同时保持对困难问题的探索。
实验表明，CEEH在降低推理长度的同时，保持了甚至提升了LLM在多个推理基准上的准确性。

📝 摘要（中文）

Chain-of-Thought (CoT)显著提升了大型语言模型(LLM)解决复杂推理任务的能力，但显式推理步骤的冗长性导致了过高的推理延迟和计算成本，限制了实际部署。现有的压缩方法，如自训练和带长度约束的强化学习(RL)，虽然试图缓解这个问题，但往往牺牲了推理能力以换取简洁性。这些方法的一个关键失败模式是：显式地优化更短的轨迹会触发快速的熵崩溃，过早地缩小了探索空间，并扼杀了有效推理路径的发现，特别是对于需要大量演绎的具有挑战性的问题。为了解决这个问题，我们提出了一种基于RL的高效推理的难度感知方法：Compress responses for Easy questions and Explore Hard ones (CEEH)。CEEH动态地评估实例难度以应用选择性熵正则化：它为当前困难的问题保留了多样化的搜索空间以确保鲁棒性，同时允许对推理路径已建立的简单实例进行积极压缩。此外，我们引入了一种动态最优长度惩罚，锚定到历史上最短的正确响应，有效地抵消了熵引起的长度膨胀并稳定了奖励信号。在六个推理基准测试中，CEEH始终在降低响应长度的同时保持与基础模型相当的准确性，并且相对于仅长度优化提高了Pass@k。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在执行Chain-of-Thought (CoT) 推理时，由于推理步骤冗长而导致的推理延迟和计算成本过高的问题。现有压缩方法，例如基于强化学习的长度约束优化，虽然可以缩短推理链，但往往会牺牲推理的准确性，尤其是在处理复杂问题时，容易陷入局部最优解，导致探索空间过早坍塌。

核心思路：论文的核心思路是根据问题的难度动态地调整压缩策略。对于简单的问题，可以积极地进行压缩，因为LLM已经掌握了解决这类问题的有效推理路径。而对于困难的问题，则需要保持探索空间的多样性，避免过早地收敛到次优解。通过这种难度感知的策略，可以在保证推理准确性的前提下，有效地缩短推理链，提高推理效率。

技术框架：CEEH方法基于强化学习框架，整体流程如下：首先，使用LLM生成CoT推理过程；然后，根据问题的难度，动态地调整熵正则化系数，对LLM的推理过程进行压缩。具体来说，对于简单的问题，降低熵正则化系数，鼓励LLM生成更短的推理链；对于困难的问题，提高熵正则化系数，鼓励LLM探索更多的推理路径。此外，论文还引入了一种动态最优长度惩罚，以防止熵正则化导致的推理链过长。

关键创新：CEEH方法的关键创新在于提出了难度感知的熵正则化策略。与现有方法不同，CEEH不是一刀切地对所有问题进行压缩，而是根据问题的难度动态地调整压缩策略。这种方法可以有效地平衡推理效率和准确性，避免了现有方法在处理复杂问题时容易出现的精度下降问题。

关键设计：CEEH的关键设计包括：1) 难度评估机制：用于判断问题的难度，可以基于LLM的置信度、推理步数等指标；2) 动态熵正则化系数：根据问题难度动态调整，困难问题对应更高的熵正则化系数；3) 动态最优长度惩罚：锚定到历史上最短的正确响应，防止熵正则化导致的长度膨胀。损失函数包含奖励项（基于推理正确性）、长度惩罚项和熵正则化项。

🖼️ 关键图片

📊 实验亮点

CEEH在六个推理基准测试中表现出色，在保持与基础模型相当的准确性的前提下，显著降低了响应长度。相对于仅长度优化的基线方法，CEEH在Pass@k指标上取得了提升，表明其在保证推理准确性的同时，提高了推理效率。实验结果验证了难度感知熵正则化策略的有效性。

🎯 应用场景

该研究成果可应用于各种需要高效LLM推理的场景，例如智能客服、自动问答系统、代码生成等。通过降低推理延迟和计算成本，CEEH方法可以使LLM更易于部署在资源受限的设备上，并提高用户体验。未来，该方法可以进一步扩展到其他类型的LLM压缩任务，例如知识蒸馏、模型剪枝等。

📄 摘要（原文）

Chain-of-Thought (CoT) has substantially empowered Large Language Models (LLMs) to tackle complex reasoning tasks, yet the verbose nature of explicit reasoning steps incurs prohibitive inference latency and computational costs, limiting real-world deployment. While existing compression methods - ranging from self-training to Reinforcement Learning (RL) with length constraints - attempt to mitigate this, they often sacrifice reasoning capability for brevity. We identify a critical failure mode in these approaches: explicitly optimizing for shorter trajectories triggers rapid entropy collapse, which prematurely shrinks the exploration space and stifles the discovery of valid reasoning paths, particularly for challenging questions requiring extensive deduction. To address this issue, we propose Compress responses for Easy questions and Explore Hard ones (CEEH), a difficulty-aware approach to RL-based efficient reasoning. CEEH dynamically assesses instance difficulty to apply selective entropy regularization: it preserves a diverse search space for currently hard questions to ensure robustness, while permitting aggressive compression on easier instances where the reasoning path is well-established. In addition, we introduce a dynamic optimal-length penalty anchored to the historically shortest correct response, which effectively counteracts entropy-induced length inflation and stabilizes the reward signal. Across six reasoning benchmarks, CEEH consistently reduces response length while maintaining accuracy comparable to the base model, and improves Pass@k relative to length-only optimization.

Compress the Easy, Explore the Hard: Difficulty-Aware Entropy Regularization for Efficient LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理