CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

📄 arXiv: 2509.09675v1 📥 PDF

作者: Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-11

备注: 21 pages


💡 一句话要点

提出好奇心驱动探索(CDE)框架,提升大型语言模型在强化学习中的探索效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 强化学习 好奇心驱动 探索策略 可验证奖励

📋 核心要点

  1. 现有RLVR方法在增强LLM推理能力方面表现出色,但探索能力不足,容易陷入局部最优和熵崩溃。
  2. CDE框架利用模型自身的好奇心驱动探索,通过actor的困惑度和critic的价值估计方差作为探索奖励。
  3. 实验表明,CDE在AIME基准测试上相比标准RLVR方法有显著提升,并揭示了RLVR中存在的校准崩溃现象。

📝 摘要(中文)

本文提出了一种名为好奇心驱动探索(CDE)的框架,旨在解决大型语言模型(LLM)在基于可验证奖励的强化学习(RLVR)中探索不足、导致过早收敛和熵崩溃的问题。CDE利用模型自身的内在好奇心来指导探索,通过actor和critic的信号来形式化好奇心:对于actor,使用生成响应的困惑度;对于critic,使用多头架构的价值估计方差。这些信号作为RLVR框架内的探索奖励来引导模型。理论分析表明,actor奖励能够惩罚过度自信的错误并促进正确响应的多样性;critic奖励与强化学习中已有的基于计数的探索奖励相关。实验结果表明,在AIME基准测试中,CDE相比使用GRPO/PPO的标准RLVR方法,性能提升约3个点。进一步的分析揭示了RLVR中的校准崩溃机制,阐明了常见的LLM失效模式。

🔬 方法详解

问题定义:现有基于可验证奖励的强化学习(RLVR)方法在训练大型语言模型时,面临探索效率低下的问题。模型容易过早收敛到次优策略,并且生成的多样性降低(熵崩溃)。这是因为奖励信号稀疏,模型难以发现有效的探索路径。

核心思路:本文的核心思路是利用模型自身的好奇心来驱动探索。具体来说,模型在探索未知或不确定的状态时,会获得额外的奖励,从而鼓励模型尝试新的行为,避免过早收敛。这种好奇心通过actor和critic两个角度进行建模。

技术框架:CDE框架在标准的RLVR框架基础上,增加了一个好奇心奖励项。整体流程如下:1) 模型生成响应;2) Actor的好奇心奖励计算:计算生成响应的困惑度;3) Critic的好奇心奖励计算:使用多头架构计算价值估计的方差;4) 将actor和critic的好奇心奖励与外部奖励结合,形成总奖励;5) 使用强化学习算法(如GRPO/PPO)更新模型。

关键创新:CDE的关键创新在于将好奇心概念引入到LLM的强化学习中,并提出了actor-wise和critic-wise两种好奇心奖励。Actor-wise奖励通过困惑度来衡量生成内容的新颖性,鼓励模型生成多样化的响应。Critic-wise奖励通过价值估计的方差来衡量状态的不确定性,鼓励模型探索未知的状态。与传统的探索方法相比,CDE利用了模型自身的知识和能力,能够更有效地指导探索。

关键设计:Actor-wise奖励使用生成响应的困惑度,困惑度越高,奖励越高。Critic-wise奖励使用多头架构的价值估计方差,方差越高,奖励越高。多头架构可以提供对价值函数不确定性的估计。总奖励是外部奖励、actor奖励和critic奖励的加权和。权重是需要调整的超参数。论文使用了GRPO/PPO作为强化学习算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CDE在AIME基准测试上相比标准RLVR方法有显著提升,性能提升约3个点。这表明CDE能够有效地提高LLM的探索效率,并学习到更优的策略。此外,论文还揭示了RLVR中存在的校准崩溃现象,这是一种常见的LLM失效模式,CDE在一定程度上缓解了这个问题。

🎯 应用场景

CDE框架可以应用于各种需要LLM进行策略学习和决策的任务中,例如对话系统、游戏AI、机器人控制等。通过提高探索效率,CDE可以帮助LLM更快地学习到更优的策略,从而提升任务性能。此外,CDE还可以用于发现LLM的潜在缺陷和弱点,例如校准崩溃问题,从而促进LLM的改进和优化。

📄 摘要(原文)

Reinforcement Learning with Verifiable Rewards (RLVR) is a powerful paradigm for enhancing the reasoning ability of Large Language Models (LLMs). Yet current RLVR methods often explore poorly, leading to premature convergence and entropy collapse. To address this challenge, we introduce Curiosity-Driven Exploration (CDE), a framework that leverages the model's own intrinsic sense of curiosity to guide exploration. We formalize curiosity with signals from both the actor and the critic: for the actor, we use perplexity over its generated response, and for the critic, we use the variance of value estimates from a multi-head architecture. Both signals serve as an exploration bonus within the RLVR framework to guide the model. Our theoretical analysis shows that the actor-wise bonus inherently penalizes overconfident errors and promotes diversity among correct responses; moreover, we connect the critic-wise bonus to the well-established count-based exploration bonus in RL. Empirically, our method achieves an approximate +3 point improvement over standard RLVR using GRPO/PPO on AIME benchmarks. Further analysis identifies a calibration collapse mechanism within RLVR, shedding light on common LLM failure modes.