ConMax: Confidence-Maximizing Compression for Efficient Chain-of-Thought Reasoning

📄 arXiv: 2601.04973v1 📥 PDF

作者: Minda Hu, Zexuan Qiu, Zenan Xu, Kun Li, Bo Zhou, Irwin King

分类: cs.AI, cs.CL

发布日期: 2026-01-08


💡 一句话要点

提出ConMax以解决推理路径冗余问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推理模型 思维链 压缩技术 强化学习 效率提升 逻辑一致性 自然语言处理

📋 核心要点

  1. 现有大型推理模型在生成思维链时,常出现冗余推理路径,导致计算成本增加而准确性未必提升。
  2. ConMax通过强化学习框架,将推理轨迹压缩问题转化为奖励驱动的优化问题,旨在保留重要的推理模式。
  3. 实验结果显示,ConMax在推理长度上减少了43%,仅以0.7%的准确率下降换取了显著的效率提升。

📝 摘要(中文)

近年来,大型推理模型(LRMs)的突破表明,广泛的思维链(CoT)生成对于实现复杂任务的认知行为至关重要。然而,这种能力常导致“过度思考”,生成冗余推理路径,增加计算成本而不提高准确性。现有的压缩技术在应用于推理轨迹时,往往会损害逻辑一致性或导致高昂的采样成本。本文提出了ConMax(信心最大化压缩),一个新颖的强化学习框架,旨在自动压缩推理轨迹,同时保留必要的推理模式。ConMax将压缩问题形式化为一个基于奖励的优化问题,通过冻结的辅助LRM训练策略,最大化预测准确性的答案信心与推理有效性的思维信心的加权组合。大量实验表明,ConMax在五个推理数据集上实现了优越的效率与性能平衡。

🔬 方法详解

问题定义:本文解决的问题是如何在保持推理质量的前提下,有效压缩大型推理模型生成的冗余推理路径。现有方法在压缩推理轨迹时,常常面临逻辑一致性受损或采样成本过高的挑战。

核心思路:ConMax的核心思路是将推理轨迹的压缩视为一个奖励驱动的优化问题,通过强化学习策略来自动化地去除冗余部分,同时保留重要的推理信息。这样的设计旨在提高推理效率,降低计算成本。

技术框架:ConMax的整体架构包括一个冻结的辅助大型推理模型和一个强化学习策略。首先,辅助模型用于评估推理路径的信心,然后通过强化学习策略优化压缩过程,最大化答案信心与思维信心的加权组合。

关键创新:ConMax的主要创新在于其将压缩问题形式化为奖励驱动的优化问题,这一方法与传统的压缩技术相比,能够更好地保留推理的逻辑一致性和有效性。

关键设计:在设计中,ConMax使用了特定的损失函数来平衡答案信心和思维信心的权重,同时在网络结构上采用了适应性调整的策略,以确保压缩过程的高效性和有效性。通过这些设计,ConMax能够在保持推理质量的同时显著减少推理长度。

📊 实验亮点

实验结果表明,ConMax在五个推理数据集上实现了推理长度减少43%的显著提升,而准确率仅下降0.7%。这一结果展示了ConMax在效率与性能之间的优越平衡,证明了其在生成高质量训练数据方面的有效性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和复杂决策支持系统。通过提高推理效率,ConMax能够为大型推理模型提供高质量的训练数据,进而提升模型在实际应用中的表现。未来,ConMax的技术框架可能会被广泛应用于各种需要高效推理的智能系统中。

📄 摘要(原文)

Recent breakthroughs in Large Reasoning Models (LRMs) have demonstrated that extensive Chain-of-Thought (CoT) generation is critical for enabling intricate cognitive behaviors, such as self-verification and backtracking, to solve complex tasks. However, this capability often leads to ``overthinking'', where models generate redundant reasoning paths that inflate computational costs without improving accuracy. While Supervised Fine-Tuning (SFT) on reasoning traces is a standard paradigm for the 'cold start' phase, applying existing compression techniques to these traces often compromises logical coherence or incurs prohibitive sampling costs. In this paper, we introduce ConMax (Confidence-Maximizing Compression), a novel reinforcement learning framework designed to automatically compress reasoning traces while preserving essential reasoning patterns. ConMax formulates compression as a reward-driven optimization problem, training a policy to prune redundancy by maximizing a weighted combination of answer confidence for predictive fidelity and thinking confidence for reasoning validity through a frozen auxiliary LRM. Extensive experiments across five reasoning datasets demonstrate that ConMax achieves a superior efficiency-performance trade-off. Specifically, it reduces inference length by 43% over strong baselines at the cost of a mere 0.7% dip in accuracy, proving its effectiveness in generating high-quality, efficient training data for LRMs.