Walk Before You Run! Concise LLM Reasoning via Reinforcement Learning

📄 arXiv: 2505.21178v1 📥 PDF

作者: Mingyang Song, Mao Zheng

分类: cs.CL

发布日期: 2025-05-27

备注: Ongoing Work


💡 一句话要点

提出ConciseR以解决LLM推理冗余问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力 强化学习 链式思维 简洁性优化

📋 核心要点

  1. 现有的推理模型在生成长链式思维响应时,常出现冗余和重复思考的问题,影响推理效率。
  2. 本文提出的ConciseR框架通过两阶段强化学习,分别优化推理能力和响应简洁性,有效解决冗余问题。
  3. 实验结果显示,ConciseR在多个基准测试中生成的推理响应更为简洁,超越了当前最先进的推理模型。

📝 摘要(中文)

随着测试时扩展成为大型语言模型(LLMs)发展的重要研究前沿,当前的后训练方法越来越关注于延长长链式思维(CoT)响应的生成长度,以增强推理能力。然而,最近的研究揭示了最先进推理模型中持续存在的过度思考现象,表现为长CoT响应中的冗余或重复思维模式。为了解决这一问题,本文提出了一种简单而有效的两阶段强化学习框架ConciseR,旨在实现LLMs中的简洁推理。具体而言,第一阶段通过更多的训练步骤,利用带有clip-higher和动态采样组件的组相对策略优化(GRPO++)来激励模型的推理能力;第二阶段则通过较少的训练步骤,利用长度感知组相对策略优化(L-GRPO)明确强制简洁性并提高效率。实验结果表明,ConciseR生成的CoT推理响应更为简洁,且在多个基准测试中超越了最新的零强化学习范式的推理模型。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在生成长链式思维(CoT)响应时的冗余和重复思考问题。现有方法在推理过程中常常出现过度思考,导致响应质量下降。

核心思路:提出的ConciseR框架采用两阶段强化学习策略,第一阶段专注于提升模型的推理能力,第二阶段则强调生成响应的简洁性,从而有效减少冗余。

技术框架:ConciseR的整体架构分为两个阶段:第一阶段使用组相对策略优化(GRPO++)进行推理能力的训练,第二阶段通过长度感知组相对策略优化(L-GRPO)来优化响应的长度和简洁性。

关键创新:ConciseR的创新在于其“走路再跑”的原则,即在所有样本的回滚结果正确后才优化响应长度,这一设计有效避免了不必要的冗余生成。

关键设计:在GRPO++阶段,采用clip-higher和动态采样组件来激励模型推理;在L-GRPO阶段,通过明确的长度约束来提升生成效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ConciseR在AIME 2024、MATH-500、AMC 2023、Minerva和奥林匹克基准测试中,生成的CoT推理响应比最新的零强化学习范式的推理模型更为简洁,显示出显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括教育、自动问答系统和智能助手等,能够有效提升大型语言模型在复杂推理任务中的表现。通过减少冗余,ConciseR可以提高用户体验和系统效率,具有重要的实际价值和未来影响。

📄 摘要(原文)

As test-time scaling becomes a pivotal research frontier in Large Language Models (LLMs) development, contemporary and advanced post-training methodologies increasingly focus on extending the generation length of long Chain-of-Thought (CoT) responses to enhance reasoning capabilities toward DeepSeek R1-like performance. However, recent studies reveal a persistent overthinking phenomenon in state-of-the-art reasoning models, manifesting as excessive redundancy or repetitive thinking patterns in long CoT responses. To address this issue, in this paper, we propose a simple yet effective two-stage reinforcement learning framework for achieving concise reasoning in LLMs, named ConciseR. Specifically, the first stage, using more training steps, aims to incentivize the model's reasoning capabilities via Group Relative Policy Optimization with clip-higher and dynamic sampling components (GRPO++), and the second stage, using fewer training steps, explicitly enforces conciseness and improves efficiency via Length-aware Group Relative Policy Optimization (L-GRPO). Significantly, ConciseR only optimizes response length once all rollouts of a sample are correct, following the "walk before you run" principle. Extensive experimental results demonstrate that our ConciseR model, which generates more concise CoT reasoning responses, outperforms recent state-of-the-art reasoning models with zero RL paradigm across AIME 2024, MATH-500, AMC 2023, Minerva, and Olympiad benchmarks.