Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data

作者: Zhenwen Liang, Yujun Zhou, Sidi Lu, Xiangliang Zhang, Haitao Mi, Dong Yu

分类: cs.LG

发布日期: 2026-04-20

备注: ACL 2026 Main Paper

💡 一句话要点

提出CUTS和Mixed-CUTS框架，解决强化学习中推理数据饱和导致的策略退化问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 大型语言模型 推理 探索 泛化能力 数据饱和 解码策略

📋 核心要点

现有强化学习方法在推理数据饱和时，优势信号消失，导致策略退化和泛化能力下降。
论文提出CUTS解码策略和Mixed-CUTS训练框架，通过约束均匀采样和混合rollout来增强探索和多样性。
实验表明，Mixed-CUTS能有效防止策略退化，显著提升模型在AIME25等基准上的领域外泛化能力。

📝 摘要（中文）

强化学习（RL）可以提升大型语言模型（LLM）的推理能力，但随着模型规模的扩大，出现了一个悖论：强大的基础模型在标准基准测试（如MATH）上表现饱和，产生正确但同质化的解决方案。在这种环境中，缺乏失败案例导致组相对算法（如GRPO）中的优势信号消失，从而使策略陷入模式崩溃。为了解决这个问题，我们提出了一种无参数的解码策略，即约束均匀Top-K采样（CUTS），它强制执行结构保持的探索。与遵循模型偏差的标准采样不同，CUTS通过从约束的高置信度候选中均匀采样来展平局部优化环境。我们将其集成到Mixed-CUTS中，这是一个协同利用性和探索性rollout的训练框架，以放大组内优势方差。在Qwen3模型上的实验表明，我们的方法可以防止策略退化，并显著提高领域外泛化能力。值得注意的是，Mixed-CUTS在具有挑战性的AIME25基准测试中，Pass@1准确率比标准GRPO提高了高达15.1%，验证了在语义流形中保持多样性对于严格推理至关重要。

🔬 方法详解

问题定义：论文旨在解决强化学习在训练大型语言模型进行复杂推理时遇到的问题。具体来说，当基础模型已经很强大，在训练数据上表现接近完美时（例如MATH数据集），模型输出的答案高度相似，缺乏多样性。这导致强化学习算法，特别是基于优势函数的算法（如GRPO），难以区分好坏样本，优势信号变得微弱，最终导致策略退化，泛化能力下降。现有方法难以有效解决这种数据饱和带来的问题。

核心思路：论文的核心思路是通过增强探索来解决数据饱和问题。具体而言，不是简单地依赖模型自身的概率分布进行采样，而是强制模型探索更多可能的解空间。通过引入约束条件，保证探索的解仍然是高质量的，同时增加解的多样性。这样可以为强化学习算法提供更丰富的优势信号，避免策略陷入局部最优。

技术框架：论文提出了Mixed-CUTS框架，该框架包含两个主要组成部分：CUTS解码策略和混合rollout训练。CUTS解码策略用于生成多样化的候选答案，而混合rollout训练则结合了利用性rollout（exploitation rollouts）和探索性rollout（exploration rollouts）。利用性rollout使用标准的采样方法，而探索性rollout使用CUTS解码策略。这两种rollout的结合可以平衡模型的准确性和多样性。

关键创新：论文的关键创新在于CUTS解码策略。CUTS（Constrained Uniform Top-K Sampling）是一种无参数的解码策略，它首先选择Top-K个最可能的候选答案，然后对这些候选答案施加约束，例如要求答案的结构保持不变。最后，从满足约束条件的候选答案中均匀采样。这种方法既保证了答案的质量，又增加了答案的多样性。与传统的采样方法相比，CUTS能够更有效地探索解空间。

关键设计：CUTS解码策略的关键参数是K（Top-K的大小）和约束条件。K的设置需要根据具体任务进行调整，以平衡准确性和多样性。约束条件的设计也需要根据任务的特点进行选择，以保证探索的解仍然是合理的。Mixed-CUTS框架中，利用性rollout和探索性rollout的比例也是一个重要的超参数，需要根据实验结果进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Mixed-CUTS框架在Qwen3模型上显著提升了领域外泛化能力。在具有挑战性的AIME25基准测试中，Mixed-CUTS的Pass@1准确率比标准GRPO提高了高达15.1%。这表明，通过维持语义流形中的多样性，可以有效提升模型的推理能力。

🎯 应用场景

该研究成果可应用于提升大型语言模型在复杂推理任务中的性能，例如数学问题求解、代码生成、知识图谱推理等。通过增强模型的探索能力和泛化能力，可以使其在更广泛的实际场景中发挥作用，例如智能客服、自动化编程、科学研究等。

📄 摘要（原文）

Reinforcement Learning (RL) enhances LLM reasoning, yet a paradox emerges as models scale: strong base models saturate standard benchmarks (e.g., MATH), yielding correct but homogeneous solutions. In such environments, the lack of failure cases causes the advantage signal in group-relative algorithms (e.g., GRPO) to vanish, driving policies into mode collapse. To address this, we propose Constrained Uniform Top-K Sampling (CUTS), a parameter-free decoding strategy enforcing structure-preserving exploration. Unlike standard sampling that follows model biases, CUTS flattens the local optimization landscape by sampling uniformly from constrained high-confidence candidates. We integrate this into Mixed-CUTS, a training framework synergizing exploitative and exploratory rollouts to amplify intra-group advantage variance. Experiments on Qwen3 models demonstrate that our approach prevents policy degeneration and significantly boosts out-of-domain generalization. Notably, Mixed-CUTS improves Pass@1 accuracy on the challenging AIME25 benchmark by up to 15.1% over standard GRPO, validating that maintaining diversity within the semantic manifold is critical for rigorous reasoning.

Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理