Outcome-based Exploration for LLM Reasoning

作者: Yuda Song, Julia Kempe, Remi Munos

分类: cs.LG, cs.CL

发布日期: 2025-09-08

备注: 26 pages, 11 figures

💡 一句话要点

提出基于结果的探索方法，提升LLM推理能力并保持生成多样性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 推理能力 探索机制 多样性 结果导向 数学问题求解

📋 核心要点

现有基于结果的强化学习方法提升LLM推理能力，但会牺牲生成多样性，影响模型泛化能力。
提出基于结果的探索方法，通过奖励罕见答案和惩罚批次内重复来提升多样性，缓解多样性崩溃问题。
实验表明，该方法在提高准确率的同时，有效缓解了多样性崩溃，提升了LLM的推理能力。

📝 摘要（中文）

强化学习(RL)已成为提升大型语言模型(LLM)推理能力的有效方法。基于结果的强化学习，仅根据最终答案的正确性来奖励策略，虽然能显著提高准确率，但也会导致生成多样性的系统性损失。这种崩溃会损害实际性能，因为多样性对于测试时的泛化至关重要。我们通过将RL后训练视为一个采样过程来分析这种现象，并表明，令人惊讶的是，相对于基础模型，RL甚至会降低训练集上的有效多样性。我们的研究强调了两个核心发现：(i)多样性退化的转移，即已解决问题上多样性的降低会传播到未解决的问题上，以及(ii)结果空间的可处理性，因为推理任务只允许有限数量的不同答案。受这些见解的启发，我们提出了基于结果的探索，它根据最终结果分配探索奖励。我们引入了两种互补的算法：历史探索，通过UCB风格的奖励来鼓励很少观察到的答案，以及批量探索，惩罚批次内的重复以促进测试时的多样性。在Llama和Qwen模型上进行的标准竞赛数学实验表明，这两种方法都能提高准确率，同时减轻多样性崩溃。在理论方面，我们通过一种新的基于结果的bandit模型，形式化了基于结果的探索的好处。总之，这些贡献为RL方法开辟了一条实用途径，可以在不牺牲可扩展部署所需的多样性的前提下，增强推理能力。

🔬 方法详解

问题定义：论文旨在解决基于结果的强化学习在提升大型语言模型推理能力时，由于过度优化最终结果而导致的生成多样性损失问题。现有方法虽然能提高准确率，但会使模型倾向于生成重复的、缺乏新意的答案，从而降低模型在实际应用中的泛化能力。这种多样性崩溃会限制模型在复杂或未见场景下的表现。

核心思路：论文的核心思路是通过在强化学习过程中引入探索机制，鼓励模型生成更多样化的答案。具体来说，不是仅仅奖励正确的最终结果，而是根据最终结果的稀有程度或新颖性来分配探索奖励。这样可以引导模型探索更广阔的答案空间，避免陷入局部最优解，从而在提高准确率的同时保持生成多样性。

技术框架：论文提出的技术框架主要包含以下几个阶段：1. 使用大型语言模型作为基础模型；2. 使用强化学习对模型进行微调，目标是提高推理能力；3. 在强化学习过程中，引入基于结果的探索机制，包括历史探索和批量探索；4. 使用奖励函数来引导模型的学习，奖励函数不仅考虑最终答案的正确性，还考虑答案的稀有程度和新颖性。

关键创新：论文最重要的技术创新点在于提出了基于结果的探索机制。与传统的强化学习方法不同，该方法不是仅仅关注最终结果的正确性，而是更加关注结果的多样性。通过奖励罕见答案和惩罚批次内重复，该方法可以有效地缓解多样性崩溃问题，提高模型的泛化能力。此外，论文还从理论上分析了基于结果的探索的有效性，并提出了一个新的基于结果的bandit模型。

关键设计：论文提出了两种具体的探索算法：历史探索和批量探索。历史探索通过UCB风格的奖励来鼓励很少观察到的答案，即对于之前很少出现的答案，给予更高的奖励，鼓励模型尝试生成这些答案。批量探索则惩罚批次内的重复，即如果一个答案在同一个批次内多次出现，则降低该答案的奖励，鼓励模型生成更多样化的答案。这两种算法可以互补，共同促进模型生成更多样化的答案。

📊 实验亮点

实验结果表明，提出的基于结果的探索方法在标准竞赛数学数据集上，使用Llama和Qwen模型进行测试，均能提高准确率，同时有效缓解多样性崩溃。具体性能数据未知，但论文强调该方法在提高准确率的同时，保持了生成多样性，优于传统的基于结果的强化学习方法。

🎯 应用场景

该研究成果可应用于各种需要大型语言模型进行推理的场景，例如数学问题求解、代码生成、知识问答等。通过提升LLM的推理能力和生成多样性，可以提高模型在实际应用中的性能和可靠性，使其能够更好地解决复杂问题，并适应不同的用户需求。

📄 摘要（原文）

Reinforcement learning (RL) has emerged as a powerful method for improving the reasoning abilities of large language models (LLMs). Outcome-based RL, which rewards policies solely for the correctness of the final answer, yields substantial accuracy gains but also induces a systematic loss in generation diversity. This collapse undermines real-world performance, where diversity is critical for test-time scaling. We analyze this phenomenon by viewing RL post-training as a sampling process and show that, strikingly, RL can reduce effective diversity even on the training set relative to the base model. Our study highlights two central findings: (i) a transfer of diversity degradation, where reduced diversity on solved problems propagates to unsolved ones, and (ii) the tractability of the outcome space, since reasoning tasks admit only a limited set of distinct answers. Motivated by these insights, we propose outcome-based exploration, which assigns exploration bonuses according to final outcomes. We introduce two complementary algorithms: historical exploration, which encourages rarely observed answers via UCB-style bonuses, and batch exploration, which penalizes within-batch repetition to promote test-time diversity. Experiments on standard competition math with Llama and Qwen models demonstrate that both methods improve accuracy while mitigating diversity collapse. On the theoretical side, we formalize the benefit of outcome-based exploration through a new model of outcome-based bandits. Together, these contributions chart a practical path toward RL methods that enhance reasoning without sacrificing the diversity essential for scalable deployment.

Outcome-based Exploration for LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册