ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning

📄 arXiv: 2601.04973v1 📥 PDF

作者: Minda Hu, Zexuan Qiu, Zenan Xu, Kun Li, Bo Zhou, Irwin King

分类: cs.AI, cs.CL

发布日期: 2026-01-08


💡 一句话要点

提出ConMax,通过置信度最大化压缩CoT推理链,提升效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 推理压缩 强化学习 置信度最大化 大型语言模型

📋 核心要点

  1. 大型推理模型存在“过度思考”问题,生成冗余推理路径,增加计算成本且不提升准确率。
  2. ConMax通过强化学习框架,以奖励驱动的方式压缩推理轨迹,保留关键推理模式,提升效率。
  3. 实验表明,ConMax在推理长度上减少43%,准确率仅下降0.7%,实现了卓越的效率-性能权衡。

📝 摘要(中文)

大型推理模型(LRMs)的最新突破表明,广泛的思维链(CoT)生成对于实现复杂的认知行为至关重要,例如自我验证和回溯,以解决复杂的任务。然而,这种能力通常会导致“过度思考”,模型生成冗余的推理路径,从而增加计算成本而没有提高准确性。虽然在推理轨迹上进行监督微调(SFT)是“冷启动”阶段的标准范例,但将现有的压缩技术应用于这些轨迹通常会损害逻辑连贯性或产生过高的采样成本。在本文中,我们介绍ConMax(置信度最大化压缩),这是一种新颖的强化学习框架,旨在自动压缩推理轨迹,同时保留必要的推理模式。ConMax将压缩定义为一个奖励驱动的优化问题,通过冻结的辅助LRM训练策略,通过最大化预测保真度的答案置信度和推理有效性的思考置信度的加权组合来修剪冗余。在五个推理数据集上的大量实验表明,ConMax实现了卓越的效率-性能权衡。具体来说,它在推理长度上比强大的基线减少了43%,而准确率仅下降了0.7%,证明了其为LRM生成高质量、高效训练数据的有效性。

🔬 方法详解

问题定义:论文旨在解决大型推理模型(LRMs)在进行思维链(CoT)推理时产生的“过度思考”问题。现有方法,如监督微调(SFT)后的压缩技术,要么损害逻辑连贯性,要么需要过高的采样成本,无法有效去除冗余推理步骤,导致计算资源浪费。

核心思路:ConMax的核心思路是将推理链的压缩过程建模为一个强化学习问题,通过训练一个策略来选择性地保留或删除推理步骤。该策略的目标是最大化一个综合奖励,该奖励由两部分组成:答案置信度(衡量预测的准确性)和思考置信度(衡量推理过程的有效性)。

技术框架:ConMax框架包含以下主要模块:1) 策略网络:负责根据当前推理状态决定是否保留或删除下一步推理;2) 辅助LRM:一个冻结的预训练LRM,用于评估答案置信度和思考置信度;3) 奖励函数:结合答案置信度和思考置信度,为策略网络提供反馈信号;4) 强化学习算法:用于训练策略网络,使其能够生成更高效的推理链。

关键创新:ConMax的关键创新在于其奖励函数的设计,它同时考虑了答案置信度和思考置信度。答案置信度确保压缩后的推理链仍然能够得到正确的答案,而思考置信度则保证了推理过程的逻辑有效性。这种双重置信度驱动的压缩方法能够更好地保留关键的推理模式,避免了传统压缩方法可能导致的逻辑错误。

关键设计:ConMax使用一个预训练的LRM作为辅助模型,该模型在训练过程中保持冻结,以提供稳定的置信度评估。奖励函数采用答案置信度和思考置信度的加权组合,权重参数需要根据具体任务进行调整。策略网络可以使用不同的网络结构,例如Transformer或LSTM。强化学习算法可以选择常见的算法,如Policy Gradient或Actor-Critic。

📊 实验亮点

ConMax在五个推理数据集上进行了广泛的实验,结果表明,与强大的基线方法相比,ConMax能够在推理长度上平均减少43%,而准确率仅下降0.7%。这表明ConMax能够有效地压缩推理链,同时保持较高的推理性能。例如,在某个具体数据集上,ConMax可以将推理时间缩短一半,而准确率仅损失不到1%。

🎯 应用场景

ConMax可应用于各种需要复杂推理的场景,例如问答系统、知识图谱推理、代码生成等。通过压缩推理链,可以显著降低计算成本,提高推理速度,使得大型推理模型能够更高效地部署在资源受限的环境中。此外,ConMax还可以用于生成更精简的训练数据,提升模型的泛化能力。

📄 摘要(原文)

Recent breakthroughs in Large Reasoning Models (LRMs) have demonstrated that extensive Chain-of-Thought (CoT) generation is critical for enabling intricate cognitive behaviors, such as self-verification and backtracking, to solve complex tasks. However, this capability often leads to ``overthinking'', where models generate redundant reasoning paths that inflate computational costs without improving accuracy. While Supervised Fine-Tuning (SFT) on reasoning traces is a standard paradigm for the 'cold start' phase, applying existing compression techniques to these traces often compromises logical coherence or incurs prohibitive sampling costs. In this paper, we introduce ConMax (Confidence-Maximizing Compression), a novel reinforcement learning framework designed to automatically compress reasoning traces while preserving essential reasoning patterns. ConMax formulates compression as a reward-driven optimization problem, training a policy to prune redundancy by maximizing a weighted combination of answer confidence for predictive fidelity and thinking confidence for reasoning validity through a frozen auxiliary LRM. Extensive experiments across five reasoning datasets demonstrate that ConMax achieves a superior efficiency-performance trade-off. Specifically, it reduces inference length by 43% over strong baselines at the cost of a mere 0.7% dip in accuracy, proving its effectiveness in generating high-quality, efficient training data for LRMs.