Diversity-Incentivized Exploration for Versatile Reasoning

作者: Zican Hu, Shilin Zhang, Yafu Li, Jianhao Yan, Xuyang Hu, Leyang Cui, Xiaoye Qu, Chunlin Chen, Yu Cheng, Zhi Wang

分类: cs.AI

发布日期: 2025-09-30

备注: 26 pages, 10 figures

🔗 代码/项目: GITHUB

💡 一句话要点

DIVER：通过多样性激励探索提升LLM的通用推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 大型语言模型 推理能力 多样性激励 奖励塑造

📋 核心要点

现有RLVR方法在LLM推理任务中，由于状态空间巨大和奖励稀疏，面临探索不足和样本效率低下的挑战。
DIVER框架通过引入全局序列级多样性作为内在奖励，激励模型在语义空间中进行更深入的探索。
实验表明，DIVER在领域内和领域外任务上均优于现有RLVR基线，显著提升了LLM的推理性能。

📝 摘要（中文）

基于可验证奖励的强化学习（RLVR）已成为激励大型语言模型（LLM）推理能力的关键范例。由于推理任务中巨大的状态-动作空间和奖励稀疏性，现有方法通常面临探索不足和样本效率低下的问题。本文提出了DIVER（多样性激励探索以实现通用推理），这是一个创新的框架，强调全局序列级多样性的关键作用，以激励对通用推理的深度探索。我们首先进行了一项初步的实证研究，揭示了全局多样性与推理能力之间存在很强的正相关关系。在此基础上，我们引入全局多样性激励作为一种内在奖励，以促进在语义结构化空间中的深度探索。结合内在奖励，我们开发了一种基于势的奖励塑造机制，以保持最优策略不变性，并设计了简单的启发式方法来减轻可能的奖励黑客行为。实验结果表明，DIVER在领域内和领域外任务上都优于具有各种探索策略的竞争性RLVR基线，在Pass@1和Pass@k评估中均表现出色。我们的代码可在https://github.com/NJU-RL/DIVER获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在复杂推理任务中，由于状态-动作空间巨大和奖励稀疏性导致的探索不足问题。现有基于强化学习的方法难以有效地探索策略空间，导致样本效率低下，最终影响模型的推理能力。现有方法往往难以兼顾探索的深度和广度，容易陷入局部最优。

核心思路：论文的核心思路是利用全局序列级多样性作为内在奖励，激励模型进行更广泛和深入的探索。作者观察到全局多样性与推理能力之间存在正相关关系，因此鼓励模型生成更多样化的推理路径，从而提高找到最优策略的可能性。通过多样性激励，模型可以避免过早收敛到次优解，并探索更广阔的策略空间。

技术框架：DIVER框架主要包含以下几个关键模块：1) 奖励函数设计：将全局序列级多样性作为内在奖励，与外部奖励结合，共同指导模型的学习。2) 奖励塑造机制：采用基于势的奖励塑造方法，以保证策略的最优性不变，避免引入额外的偏差。3) 探索策略：结合内在奖励，设计启发式方法，缓解奖励黑客问题。整体流程是，模型在环境中进行探索，生成推理序列，计算外部奖励和内在奖励，然后利用强化学习算法更新策略。

关键创新：DIVER的关键创新在于将全局序列级多样性作为一种内在奖励，并将其融入到强化学习框架中。与传统的探索方法（如ε-greedy或噪声注入）不同，DIVER直接激励模型生成更多样化的推理路径，从而更有效地探索策略空间。此外，基于势的奖励塑造机制保证了策略的最优性不变，避免了引入额外的偏差。

关键设计：在奖励函数设计方面，全局序列级多样性可以通过计算生成序列之间的语义距离来衡量。具体而言，可以使用预训练的语言模型（如BERT或RoBERTa）计算序列的嵌入向量，然后计算嵌入向量之间的余弦相似度。内在奖励可以设置为多样性度量的函数，例如，与多样性成正比。在奖励塑造方面，势函数可以定义为状态的函数，例如，状态的价值函数。启发式方法可以包括对奖励进行裁剪或归一化，以避免奖励黑客问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DIVER在多个推理任务上显著优于现有RLVR基线。例如，在Pass@1评估中，DIVER的性能提升了10%以上。此外，DIVER在领域外任务上也表现出良好的泛化能力，表明其具有更强的鲁棒性和适应性。实验还验证了全局多样性与推理能力之间的正相关关系，为DIVER框架的有效性提供了理论支撑。

🎯 应用场景

DIVER框架具有广泛的应用前景，可以应用于各种需要复杂推理能力的场景，例如：数学问题求解、代码生成、知识图谱推理、对话生成等。通过提升LLM的推理能力，可以提高这些应用场景的性能和用户体验。此外，DIVER框架还可以促进对LLM探索和推理机制的深入研究，为开发更强大的AI系统奠定基础。

📄 摘要（原文）

Reinforcement Learning with Verifiable Rewards (RLVR) has emerged as a crucial paradigm for incentivizing reasoning capabilities in Large Language Models (LLMs). Due to vast state-action spaces and reward sparsity in reasoning tasks, existing methods often struggle with deficient exploration and poor sample efficiency. In the paper, we propose \textbf{DIVER} (\textbf{D}iversity-\textbf{I}ncentivized Exploration for \textbf{V}ersatil\textbf{E} \textbf{R}easoning), an innovative framework that highlights the pivotal role of global sequence-level diversity to incentivize deep exploration for versatile reasoning. We first conduct a primary empirical study to reveal a strong positive correlation between global diversity and reasoning capacity. Building on this insight, we introduce global diversity incentives as an intrinsic reward to promote deep exploration in a semantically structured space. Incorporating the intrinsic reward, we develop a potential-based reward shaping mechanism to preserve optimal policy invariance and design simple heuristics to mitigate possible reward hacking. Experimental results show that DIVER outperforms competitive RLVR baselines with various exploration strategies on both in-domain and out-of-domain tasks, excelling in both Pass@1 and Pass@k evaluations. Our code is available at https://github.com/NJU-RL/DIVER.

Diversity-Incentivized Exploration for Versatile Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理