GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training

作者: Hongcheng Wang, Yinuo Huang, Sukai Wang, Guanghui Ren, Hao Dong

分类: cs.CL

发布日期: 2025-09-29 (更新: 2025-10-28)

备注: Under review

💡 一句话要点

GRPO-MA：通过多答案生成提升GRPO在CoT训练中的稳定性和效率

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Chain-of-Thought 强化学习 多答案生成 梯度优化 大型语言模型

📋 核心要点

GRPO在CoT训练中面临梯度耦合、奖励稀疏和优势估计不稳定等挑战，限制了其性能和效率。
GRPO-MA通过从每个思考过程中生成多个答案，来降低梯度方差，从而实现更稳定和高效的优化。
实验表明，GRPO-MA在数学、代码和多模态任务上显著提高了性能和训练效率，并验证了多答案生成的有效性。

📝 摘要（中文）

本文针对GRPO算法在训练大型语言模型（LLMs）和视觉语言模型（VLMs）中的Chain-of-Thought（CoT）推理时面临的挑战进行了研究，包括思想和答案之间的梯度耦合、有限并行采样导致的稀疏奖励信号以及不稳定的优势估计。为了解决这些问题，我们提出了一种简单但理论上有依据的方法GRPO-MA，该方法利用每个思考过程中的多答案生成，从而实现更稳健和高效的优化。理论上，我们证明了思想优势的方差随着每个思想的答案数量的增加而减少。实验上，我们的梯度分析证实了这种效果，表明GRPO-MA降低了梯度峰值。在数学、代码和各种多模态任务上的实验表明，GRPO-MA显著提高了性能和训练效率。我们的消融研究进一步表明，增加每个思想的答案数量可以持续提高模型性能。

🔬 方法详解

问题定义：GRPO算法在训练LLMs/VLMs的CoT推理时，存在三个主要问题：一是思想（thoughts）和答案之间的梯度耦合，导致训练不稳定；二是由于并行采样数量有限，奖励信号稀疏，难以有效学习；三是优势函数估计不稳定，影响训练效果。这些问题限制了GRPO的性能和训练效率。

核心思路：GRPO-MA的核心思路是利用多答案生成来缓解上述问题。具体来说，对于每个思考过程，模型不是只生成一个答案，而是生成多个答案。这样做的目的是增加每个思考过程的奖励信号，降低梯度方差，从而提高训练的稳定性和效率。理论分析表明，随着每个思考过程生成的答案数量增加，思想优势的方差会降低。

技术框架：GRPO-MA的整体框架与GRPO类似，仍然基于强化学习。主要流程包括：1) 模型根据输入生成思考过程；2) 对于每个思考过程，模型生成多个答案；3) 根据答案的正确性计算奖励；4) 使用奖励更新模型参数。与GRPO不同的是，GRPO-MA在每个思考过程后生成多个答案，并根据这些答案计算奖励。

关键创新：GRPO-MA的关键创新在于引入了多答案生成机制。与传统的GRPO只生成一个答案相比，GRPO-MA通过生成多个答案来增加奖励信号，降低梯度方差，从而提高训练的稳定性和效率。这种方法简单有效，并且具有理论依据。

关键设计：GRPO-MA的关键设计在于如何确定每个思考过程生成的答案数量。论文通过实验表明，增加答案数量可以持续提高模型性能，但也会增加计算成本。因此，需要在性能和效率之间进行权衡。此外，论文还分析了多答案生成对梯度方差的影响，并提出了相应的理论解释。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GRPO-MA在数学、代码和多模态任务上显著提高了性能和训练效率。例如，在某些任务上，GRPO-MA的性能提升超过10%。梯度分析表明，GRPO-MA能够有效降低梯度峰值，从而提高训练的稳定性。消融研究表明，增加每个思考过程的答案数量可以持续提高模型性能。

🎯 应用场景

GRPO-MA可广泛应用于需要CoT推理的LLMs和VLMs的训练，例如数学问题求解、代码生成、多模态问答等。该方法能够提高模型的推理能力和训练效率，具有重要的实际应用价值。未来，GRPO-MA可以进一步扩展到其他强化学习算法和任务中，例如机器人控制、游戏AI等。

📄 摘要（原文）

Recent progress, such as DeepSeek-R1, has shown that the GRPO algorithm, a Reinforcement Learning (RL) approach, can effectively train Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) and Vision-Language Models (VLMs). In this paper, we analyze three challenges of GRPO: gradient coupling between thoughts and answers, sparse reward signals caused by limited parallel sampling, and unstable advantage estimation. To mitigate these challenges, we propose GRPO-MA, a simple yet theoretically grounded method that leverages multi-answer generation from each thought process, enabling more robust and efficient optimization. Theoretically, we show that the variance of thought advantage decreases as the number of answers per thought increases. Empirically, our gradient analysis confirms this effect, showing that GRPO-MA reduces gradient spikes compared to GRPO. Experiments on math, code, and diverse multimodal tasks demonstrate that GRPO-MA substantially improves performance and training efficiency. Our ablation studies further reveal that increasing the number of answers per thought consistently enhances model performance.

GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理