ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression

作者: Tingcheng Bian, Yuzhe Zhang, Jing Jin, Jinchang Luo, MingQuan Cheng, Haiwei Wang, Wenyuan Jiang, Miaohui Wang

分类: cs.LG, cs.CL

发布日期: 2026-05-08

备注: 39 pages, 18 figures. Code and model checkpoints will be released upon publication

💡 一句话要点

提出ExpThink框架：通过经验引导的强化学习实现自适应思维链压缩

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链压缩 强化学习 大型推理模型 奖励塑造 自适应学习 数学推理 模型效率优化

📋 核心要点

现有CoT压缩方法依赖静态长度惩罚，无法动态适应模型能力的提升及不同问题间的难度差异。
提出ExpThink框架，引入经验引导的奖励塑造与难度自适应优势函数，实现准确率优先、压缩为辅的训练目标。
在数学推理基准测试中，该方法在显著降低响应长度的同时提升了准确率，准确率-效率比最高提升至3倍。

📝 摘要（中文）

大型推理模型（LRMs）通过扩展思维链（CoT）实现了卓越的推理能力，但伴随高昂的Token消耗与推理延迟。现有的CoT压缩强化学习方法多采用统一、静态的长度惩罚，忽略了模型能力动态变化及问题难度差异。本文提出ExpThink框架，通过两种互补机制解决上述问题：一是“经验引导的奖励塑造”，通过追踪各问题的最短正确解，实施三级奖励机制，并随模型进化自动收紧阈值；二是“难度自适应优势函数”，利用正确率归一化替代标准差归一化，实现难度感知的梯度缩放。实验表明，ExpThink在数学推理任务中将平均响应长度降低了77%，同时提升了准确率，其准确率-效率比（AER）较基线提升至3倍，优于现有同类压缩方法。

🔬 方法详解

问题定义：论文旨在解决大型推理模型在长思维链推理中存在的冗余Token消耗与高延迟问题，同时克服现有强化学习压缩策略中缺乏动态适应性、难以平衡准确率与压缩率的痛点。

核心思路：核心思想是构建一个“准确率优先、压缩为辅”的自适应训练框架。通过引入模型自身的历史经验作为基准，动态调整奖励机制，并根据问题的难度差异对梯度进行加权，从而在保持推理精度的前提下实现高效压缩。

技术框架：框架包含两个核心模块：一是经验引导的奖励塑造（Experience-Guided Reward Shaping），通过维护每个问题的最短正确解记录，动态更新奖励阈值；二是难度自适应优势函数（Difficulty-Adaptive Advantage），通过正确率归一化替代传统的标准差归一化，实现对不同难度问题的梯度差异化处理。

关键创新：最重要的创新在于引入了“自进化课程学习”机制，无需人工调度即可随模型能力提升自动收紧压缩阈值；同时，通过正确率归一化实现了梯度在难易问题间的自动分配，有效抑制了简单问题的冗余梯度，放大了对困难问题的学习权重。

关键设计：采用了三级奖励机制：对简洁的正确回答给予全额奖励，对冗余的正确回答给予折扣奖励，对错误回答给予零奖励。优势函数设计中，利用正确率统计量替代标准差，确保梯度缩放与问题难度单调相关，从而在训练过程中实现对模型推理路径的精细化引导。

🖼️ 关键图片

📊 实验亮点

在多个数学推理基准测试中，ExpThink表现优异：平均响应长度缩减高达77%，同时准确率不降反升。与基线模型相比，其准确率-效率比（AER）提升至3倍，在压缩效果与推理性能的权衡上显著优于现有的强化学习压缩基线方法，证明了其在复杂推理任务中的鲁棒性。

🎯 应用场景

该研究适用于需要高推理精度且对延迟敏感的工业级应用，如自动化数学求解器、复杂逻辑推理助手及实时代码生成系统。通过降低推理Token消耗，该方法能显著降低大模型的部署成本，提升端侧或云端推理的响应速度，具有极高的商业落地价值。

📄 摘要（原文）

Large reasoning models (LRMs) achieve strong performance via extended chain-of-thought (CoT) reasoning, yet suffer from excessive token consumption and high inference latency. Existing reinforcement learning (RL) approaches for CoT compression rely on uniform, static length penalties that neglect model capability dynamics and problem-level difficulty variation. We propose \textbf{ExpThink}\xspace, an RL framework that addresses both dimensions through two complementary mechanisms. First, \emph{experience-guided reward shaping} tracks the shortest correct solution found so far for each problem and applies a three-tier reward: full credit for concise correct responses, discounted credit for verbose correct ones, and zero for incorrect ones. The threshold tightens automatically with model improvement, forming a self-evolving curriculum that requires no manual scheduling. Second, \emph{difficulty-adaptive advantage} replaces standard deviation normalization with correct-count normalization, yielding monotonically difficulty-scaled gradients that amplify learning on hard problems to preserve accuracy while suppressing gradients on easy ones to encourage brevity. Together, these mechanisms enforce an accuracy-first, compression-second training objective. Experiments on multiple mathematical reasoning benchmarks demonstrate that \textbf{ExpThink}\xspace reduces average response length by up to 77\% while simultaneously improving accuracy, achieving up to $3\times$ higher accuracy-efficiency ratio (accuracy divided by average token count) than the vanilla baseline and outperforming existing RL-based compression methods on both metrics.

ExpThink: Experience-Guided Reinforcement Learning for Adaptive Chain-of-Thought Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理