Reinforcement Learning for Chain of Thought Compression with One-Domain-to-All Generalization

作者: Hanyu Li, Jiangshan Duo, Bofei Gao, Hailin Zhang, Sujian Li, Xiaotie Deng, Liang Zhao

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-12-19 (更新: 2026-01-21)

💡 一句话要点

提出基于强化学习的思维链压缩方法，实现跨领域泛化和效率提升。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 思维链推理 强化学习 模型压缩 跨领域泛化 语言模型 智能代理

📋 核心要点

现有思维链推理方法存在过度思考问题，导致成本增加但收益不稳定。
提出基于强化学习的思维链压缩，根据模型掌握程度动态调整推理长度。
实验表明，该方法能有效缩短推理链，提升效率，并具备跨领域泛化能力。

📝 摘要（中文）

大型语言模型中的思维链推理可能导致“过度思考陷阱”：更长的推理过程增加了成本和延迟，但通常无法获得可靠的准确性提升。现有方法使用全局、静态的控制，这可能会抑制必要的推理。我们提出了一种基于掌握程度门控的、样本级别的、软强化学习压缩方法，该方法仅在模型已经解决问题并产生了较短的推理过程时，才会惩罚较长的推理过程。在多个基准测试中，该方法在保持或提高准确性的同时，将响应长度缩短了20-40%，并且可以跨领域泛化：在数学领域训练的模型可以自发地缩短未见过的任务（代码、指令遵循、通用知识问答），而不会损害准确性。我们进一步展示了非代理CoT和工具使用代理之间的双向迁移：非代理训练将SWE-Bench Verified的回合数减少了13%，而压缩一个思考代理将SWE轨迹减少了67%的token和52%的回合数，并将非代理输出缩短了高达44%。因此，压缩不仅仅是表面上的简洁，而是一种固有的计算策略——保留什么，以及忘记什么。

🔬 方法详解

问题定义：论文旨在解决大型语言模型中思维链（Chain-of-Thought, CoT）推理的“过度思考陷阱”问题。现有方法采用全局静态控制，无法根据具体问题和模型状态灵活调整推理长度，导致不必要的计算开销和延迟，同时可能抑制模型进行有效推理。

核心思路：论文的核心思路是利用强化学习，训练一个能够根据模型对问题的掌握程度动态压缩思维链的策略。当模型已经能够通过较短的推理链解决问题时，就惩罚更长的推理链，鼓励模型学习更高效的推理路径。这种基于样本级别的软压缩，允许模型在需要时进行更深入的思考，避免一刀切的全局控制。

技术框架：整体框架包含一个大型语言模型作为推理器，以及一个强化学习智能体作为压缩器。推理器负责生成思维链，压缩器根据推理器的输出和问题难度，决定是否需要继续推理。具体流程如下：1. 给定问题，推理器生成初始思维链；2. 压缩器评估当前思维链的质量（例如，是否已经解决问题）；3. 如果压缩器认为可以停止推理，则输出结果；否则，推理器继续生成思维链；4. 使用强化学习算法（例如，策略梯度）训练压缩器，目标是最小化推理成本（例如，推理步数），同时最大化准确率。

关键创新：最重要的技术创新点在于“掌握程度门控”的强化学习压缩策略。该策略不是简单地限制推理长度，而是根据模型对问题的掌握程度动态调整。只有当模型已经能够解决问题时，才会惩罚更长的推理链。这种方法能够更好地平衡推理成本和准确率，避免抑制必要的推理。此外，该方法还展现出良好的跨领域泛化能力，无需针对特定领域进行训练。

关键设计：关键设计包括：1. 奖励函数的设计，需要平衡推理成本和准确率。论文采用了一种软奖励函数，根据模型输出的置信度和推理长度进行加权；2. 强化学习算法的选择，论文采用了策略梯度算法，能够直接优化推理策略；3. 模型架构的设计，压缩器可以是一个小型神经网络，输入是推理器的输出和问题表示，输出是停止推理的概率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多个基准测试中，能够在保持或提高准确性的同时，将响应长度缩短20-40%。更重要的是，该方法展现出良好的跨领域泛化能力，在数学领域训练的模型可以自发地缩短未见过的任务（代码、指令遵循、通用知识问答），而不会损害准确性。此外，该方法还实现了非代理CoT和工具使用代理之间的双向迁移，进一步验证了其有效性和通用性。

🎯 应用场景

该研究成果可应用于各种需要高效推理的场景，例如智能客服、自动问答系统、代码生成等。通过压缩思维链，可以显著降低计算成本和延迟，提高系统的响应速度和用户体验。此外，该方法还具有跨领域泛化能力，可以应用于不同的任务和领域，具有广泛的应用前景。

📄 摘要（原文）

Chain-of-thought reasoning in large language models can trigger an "overthinking trap": longer rollouts raise cost and latency yet often yield unreliable accuracy gains. Existing methods use global, static controls that may suppress needed reasoning. We propose mastery-gated, sample-level, soft reinforcement learning compression that penalizes long rollouts only when the model already solves the problem and has produced a shorter rollout. Across benchmarks, it cuts response length by 20-40% with comparable or higher accuracy and generalizes across domains: a model trained on math spontaneously shortens unseen tasks (code, instruction following, general-knowledge QA) without hurting accuracy. We further show two-way transfer between non-agent CoT and tool-use agents: non-agent training reduces SWE-Bench Verified rounds by 13%, while compressing a thinking agent cuts SWE trajectories by 67% tokens and 52% rounds and shortens non-agent outputs by up to 44%. Compression is thus not cosmetic brevity, but an inherent computation policy -- what to keep, and what to forget.

Reinforcement Learning for Chain of Thought Compression with One-Domain-to-All Generalization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理