DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains

📄 arXiv: 2510.27419v1 📥 PDF

作者: Tian Liang, Wenxiang Jiao, Zhiwei He, Jiahao Xu, Haitao Mi, Dong Yu

分类: cs.AI, cs.CL

发布日期: 2025-10-31

备注: Work in progress


💡 一句话要点

提出DeepCompress以解决大规模推理模型的效率与准确性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大规模推理模型 自适应长度奖励 推理链压缩 复杂问题解决 效率与准确性提升

📋 核心要点

  1. 现有方法在提升大规模推理模型效率时,往往牺牲了模型的准确性,导致在简单和复杂问题上的表现不均衡。
  2. DeepCompress框架通过自适应长度奖励机制,实时调整推理链的长度,以适应问题的复杂性,从而提高推理效率和准确性。
  3. 在复杂数学基准测试中,DeepCompress显著超越了基线方法,取得了更高的准确性和更好的token使用效率。

📝 摘要(中文)

大规模推理模型(LRMs)展现了卓越的能力,但在处理简单问题时常出现“过度思考”,而在复杂问题上又表现为“思考不足”。现有的监督微调或强化学习方法虽然能提高效率,但往往以牺牲准确性为代价。本文提出了DeepCompress框架,旨在同时提升LRMs的准确性和效率。该框架通过自适应长度奖励机制,实时将问题分类为“简单”或“困难”,鼓励对简单问题进行短而高效的推理,而对困难问题则促进更长的探索性思考链。实验结果表明,DeepCompress在复杂数学基准测试中表现优异,准确性和token效率均显著提升。

🔬 方法详解

问题定义:本文旨在解决大规模推理模型在处理简单和复杂问题时的认知效率低下问题。现有方法往往偏向于短推理路径,导致在复杂问题上的表现不足。

核心思路:DeepCompress通过引入自适应长度奖励机制,实时判断问题的复杂性,从而动态调整推理链的长度,既能提高简单问题的推理效率,又能扩展复杂问题的思考深度。

技术框架:DeepCompress的整体架构包括问题分类模块、长度奖励机制和推理链生成模块。首先,模型根据当前能力实时分类问题,然后根据分类结果调整推理链的长度,最后生成相应的推理链。

关键创新:DeepCompress的核心创新在于其双重奖励策略,挑战了传统方法对短推理路径的偏好,强调了长推理路径在复杂问题上的潜在优势。

关键设计:在设计上,DeepCompress设置了动态长度奖励机制,采用了特定的损失函数来平衡准确性与效率,并通过实验验证了不同参数设置对模型性能的影响。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

在复杂数学基准测试中,DeepCompress的表现显著优于基线方法,准确性提升幅度达到XX%,token效率提高了YY%。这一结果表明,DeepCompress在处理复杂问题时的有效性和优势。

🎯 应用场景

DeepCompress的研究成果可以广泛应用于需要高效推理的领域,如自然语言处理、智能问答系统和复杂决策支持系统等。其提高的推理效率和准确性将为实际应用提供更强的支持,推动智能系统的进一步发展。

📄 摘要(原文)

Large Reasoning Models (LRMs) have demonstrated impressive capabilities but suffer from cognitive inefficiencies like overthinking'' simple problems andunderthinking'' complex ones. While existing methods that use supervised fine-tuning~(SFT) or reinforcement learning~(RL) with token-length rewards can improve efficiency, they often do so at the cost of accuracy. This paper introduces \textbf{DeepCompress}, a novel framework that simultaneously enhances both the accuracy and efficiency of LRMs. We challenge the prevailing approach of consistently favoring shorter reasoning paths, showing that longer responses can contain a broader range of correct solutions for difficult problems. DeepCompress employs an adaptive length reward mechanism that dynamically classifies problems as Simple'' orHard'' in real-time based on the model's evolving capability. It encourages shorter, more efficient reasoning for Simple'' problems while promoting longer, more exploratory thought chains forHard'' problems. This dual-reward strategy enables the model to autonomously adjust its Chain-of-Thought (CoT) length, compressing reasoning for well-mastered problems and extending it for those it finds challenging. Experimental results on challenging mathematical benchmarks show that DeepCompress consistently outperforms baseline methods, achieving superior accuracy while significantly improving token efficiency.