Dynamics-Predictive Sampling for Active RL Finetuning of Large Reasoning Models
作者: Yixiu Mao, Yun Qu, Qi Wang, Heming Zou, Xiangyang Ji
分类: cs.LG, cs.AI
发布日期: 2026-03-11
备注: Accepted to ICLR 2026
💡 一句话要点
提出动态预测采样(DPS)方法,加速大模型推理能力强化学习微调。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 在线学习 动态系统 贝叶斯推理
📋 核心要点
- 现有在线提示选择方法虽加速RL微调,但需大量LLM rollout,计算开销巨大。
- DPS将提示解决进度建模为动力系统,通过贝叶斯推理预测提示的学习动态,指导采样。
- 实验表明,DPS减少冗余rollout,加速训练,并在多种推理任务上提升性能。
📝 摘要(中文)
强化学习(RL)微调已成为增强大型语言模型(LLM)推理能力的关键技术。然而,其有效性严重依赖于训练数据的选择。最近的研究强调了在线提示选择方法的重要性,该方法通常集中训练在当前策略下部分解决或中等难度的示例上,从而产生更有效的模型更新。虽然在训练步骤方面显著加速了RL微调,但它们也带来了巨大的计算开销,需要对大量候选批次进行广泛的LLM rollout,以识别信息丰富的样本,这种开销可能超过微调过程本身。为了解决这个挑战,本文提出了动态预测采样(DPS),它通过在昂贵的rollout之前推断其学习动态来在线预测和选择信息丰富的提示。具体来说,我们引入了一个新的视角,将每个提示在RL微调期间的解决进度建模为一个动力系统,其中解决的程度表示为状态,过渡由隐马尔可夫模型表征。利用历史rollout奖励信号,我们执行在线贝叶斯推理来估计不断演变的状态分布,推理结果为高效的提示选择提供了一个预测先验,而无需进行密集的rollout过滤。在包括数学、规划和视觉几何在内的各种推理任务上的经验结果表明,DPS显著减少了冗余rollout,加速了训练过程,并实现了卓越的推理性能。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)通过强化学习(RL)微调时,在线提示选择方法计算开销过大的问题。现有方法需要对大量候选提示进行rollout,以筛选出信息量大的样本,这使得rollout过程本身的计算成本很高,抵消了RL微调带来的加速效果。
核心思路:论文的核心思路是将每个提示的解决进度建模为一个动态系统,并利用历史rollout的奖励信号来预测提示在未来rollout中的学习动态。通过预测哪些提示最有可能带来显著的模型改进,从而避免对所有候选提示进行昂贵的rollout。
技术框架:DPS方法主要包含以下几个阶段: 1. 状态表示:将每个提示的解决程度表示为一个状态。 2. 动态建模:使用隐马尔可夫模型(HMM)来表征提示状态的转移。 3. 在线贝叶斯推理:利用历史rollout奖励信号,在线进行贝叶斯推理,估计提示状态的分布。 4. 提示选择:基于状态分布的预测,选择信息量最大的提示进行rollout。
关键创新:DPS的关键创新在于将提示选择问题转化为一个动态系统建模和预测问题。与现有方法直接基于rollout结果进行选择不同,DPS通过预测提示的学习动态,提前筛选出有价值的提示,从而减少了不必要的rollout。
关键设计: * 状态表示:具体的状态表示方式未知,可能与奖励信号相关。 * HMM参数:HMM的转移概率和观测概率的设置方式未知,可能需要根据具体任务进行调整。 * 贝叶斯推理:贝叶斯推理的具体算法未知,可能采用卡尔曼滤波或粒子滤波等方法。 * 提示选择策略:基于状态分布的提示选择策略未知,可能选择状态转移概率最高的提示,或者选择状态不确定性最高的提示。
🖼️ 关键图片
📊 实验亮点
DPS方法在数学、规划和视觉几何等多种推理任务上进行了评估,实验结果表明,DPS能够显著减少冗余rollout,加速训练过程,并取得优于现有方法的推理性能。具体的性能提升幅度和对比基线在论文中进行了详细描述,但此处未提供具体数值。
🎯 应用场景
该研究成果可应用于各种需要通过强化学习微调大型语言模型的场景,例如机器人控制、游戏AI、对话系统等。通过降低RL微调的计算成本,可以更高效地训练出具有更强推理能力和泛化能力的大型模型,从而推动人工智能技术在各个领域的应用。
📄 摘要(原文)
Reinforcement learning (RL) finetuning has become a key technique for enhancing the reasoning abilities of large language models (LLMs). However, its effectiveness critically depends on the selection of training data. Recent advances underscore the importance of online prompt selection methods, which typically concentrate training on partially solved or moderately challenging examples under the current policy, thereby yielding more effective model updates. While significantly accelerating RL finetuning in terms of training steps, they also incur substantial computational overhead by requiring extensive LLM rollouts over large candidate batches to identify informative samples, an expense that can outweigh the finetuning process itself. To address this challenge, this work proposes Dynamics-Predictive Sampling (DPS), which online predicts and selects informative prompts by inferring their learning dynamics prior to costly rollouts. Specifically, we introduce a new perspective by modeling each prompt's solving progress during RL finetuning as a dynamical system, where the extent of solving is represented as the state and the transition is characterized by a hidden Markov model. Using historical rollout reward signals, we perform online Bayesian inference to estimate evolving state distributions, and the inference outcome provides a predictive prior for efficient prompt selection without rollout-intensive filtering. Empirical results across diverse reasoning tasks, including mathematics, planning, and visual geometry, demonstrate that DPS substantially reduces redundant rollouts, accelerates the training process, and achieves superior reasoning performance.