Think Less, Know More: State-Aware Reasoning Compression with Knowledge Guidance for Efficient Reasoning

📄 arXiv: 2604.09150v1 📥 PDF

作者: Yi Sui, Chaozhuo Li, Dawei Song

分类: cs.CL

发布日期: 2026-04-10


💡 一句话要点

提出STACK框架,通过知识引导和状态感知压缩提升大语言模型推理效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推理压缩 链式思考 知识引导 状态感知 强化学习 数学推理

📋 核心要点

  1. 现有CoT压缩方法难以兼顾推理准确性和效率,且缺乏对推理过程细粒度的状态感知和动态调整。
  2. STACK框架通过建模阶段性冗余,结合知识检索和状态判断,动态选择知识引导或自我提示压缩策略。
  3. 实验表明,STACK在数学推理任务上显著提升了推理效率,同时提高了准确性,实现了更好的平衡。

📝 摘要(中文)

大型推理模型(LRMs)通过利用长链式思考(CoT)在复杂任务上取得了强大的性能,但常常面临过度思考的问题,导致过多的推理步骤和较高的推理延迟。现有的CoT压缩方法难以平衡准确性和效率,并且缺乏对冗余和推理偏差的细粒度、步级适应。因此,我们提出了具有知识引导的状态感知推理压缩(STACK)框架,该框架通过显式地建模特定阶段的冗余源,并与检索增强的指导相结合,来执行逐步的CoT压缩。STACK构建在线长短对比样本,并在知识引导压缩(针对不确定或有偏差的推理状态)和自我提示压缩(针对过度冗长但自信的状态)之间动态切换,并辅以基于答案收敛的提前停止机制,以抑制冗余验证。我们进一步提出了一种奖励差异驱动的训练策略,通过结合近端策略优化(PPO)和直接偏好优化(DPO),使模型能够学习状态条件下的压缩策略。在三个数学推理基准上的实验表明,STACK实现了卓越的准确性-效率平衡,与现有方法相比,平均响应长度减少了59.9%,同时准确性提高了4.8个百分点。

🔬 方法详解

问题定义:现有的大型推理模型(LRMs)在复杂任务中表现出色,但由于过度思考,导致推理步骤过多,推理延迟高。现有的CoT压缩方法无法在准确性和效率之间取得平衡,并且缺乏对推理过程中冗余和偏差的细粒度适应性。因此,需要一种方法来减少推理步骤,提高效率,同时保持或提高准确性。

核心思路:STACK的核心思路是根据推理过程中的状态,动态地选择合适的压缩策略。对于不确定或有偏差的状态,利用知识检索进行引导压缩;对于过度冗长但自信的状态,则采用自我提示压缩。此外,还引入了基于答案收敛的提前停止机制,以避免不必要的验证步骤。通过这种状态感知的动态压缩策略,可以在保证准确性的前提下,显著提高推理效率。

技术框架:STACK框架主要包含以下几个模块:1) 状态感知模块:用于评估当前推理状态的不确定性和冗余程度。2) 知识引导压缩模块:利用检索到的知识来指导推理过程,减少偏差和不确定性。3) 自我提示压缩模块:在模型自信的情况下,直接压缩推理步骤。4) 在线长短对比样本构建模块:用于训练模型学习合适的压缩策略。5) 答案收敛提前停止模块:根据答案的收敛程度,提前停止推理过程。

关键创新:STACK的关键创新在于其状态感知的动态压缩策略。与传统的静态压缩方法不同,STACK能够根据推理过程中的状态,自适应地选择合适的压缩策略。此外,STACK还引入了知识引导,以减少推理偏差和不确定性。奖励差异驱动的训练策略结合了PPO和DPO,使得模型能够学习到状态条件下的最优压缩策略。

关键设计:STACK使用在线长短对比样本进行训练,其中长样本是完整的CoT推理过程,短样本是压缩后的推理过程。状态感知模块使用神经网络来预测当前推理状态的不确定性和冗余程度。知识引导压缩模块使用检索增强生成模型,从外部知识库中检索相关知识,并将其融入到推理过程中。奖励差异驱动的训练策略使用PPO和DPO来优化模型的压缩策略,目标是最大化压缩后的推理效率,同时保持或提高准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,STACK在三个数学推理基准上实现了显著的性能提升。与现有方法相比,STACK平均响应长度减少了59.9%,同时准确性提高了4.8个百分点。这些结果表明,STACK能够有效地压缩推理过程,提高效率,同时保持或提高准确性,实现了卓越的准确性-效率平衡。

🎯 应用场景

STACK框架可应用于各种需要高效推理的场景,例如智能客服、自动问答系统、数学问题求解、代码生成等。通过减少推理步骤和降低延迟,可以显著提高这些应用的响应速度和用户体验。此外,STACK还可以用于训练更小、更高效的推理模型,降低部署成本和资源消耗。未来,该技术有望在边缘计算设备上实现高效的本地推理。

📄 摘要(原文)

Large Reasoning Models (LRMs) achieve strong performance on complex tasks by leveraging long Chain-of-Thought (CoT), but often suffer from overthinking, leading to excessive reasoning steps and high inference latency. Existing CoT compression methods struggle to balance accuracy and efficiency, and lack fine-grained, step-level adaptation to redundancy and reasoning bias. Therefore, we propose State-Aware Reasoning Compression with Knowledge Guidance (STACK), a framework that performs step-wise CoT compression by explicitly modeling stage-specific redundancy sources and integrating with a retrieval-augmented guidance. STACK constructs online long-short contrastive samples and dynamically switches between knowledge-guided compression for uncertain or biased reasoning state and self-prompted compression for overly long but confident state, complemented by an answer-convergence-based early stopping mechanism to suppress redundant verification. We further propose a reward-difference-driven training strategy by combining Proximal Policy Optimization (PPO) and Direct Preference Optimization (DPO), enabling models to learn state-conditioned compression strategies. Experiments on three mathematical reasoning benchmarks show that STACK achieves a superior accuracy-efficiency balance, reducing average response length by 59.9% while improving accuracy by 4.8 points over existing methods.