Learning from Language Feedback via Variational Policy Distillation

📄 arXiv: 2605.15113v1 📥 PDF

作者: Yang Li, Erik Nijkamp, Semih Yavuz, Shafiq Rayhan Joty

分类: cs.LG

发布日期: 2026-05-14


💡 一句话要点

提出变分策略蒸馏(VPD)框架,解决语言反馈强化学习中教师策略停滞问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 语言反馈 策略蒸馏 变分EM算法 自适应信任区域 科学推理 代码生成

📋 核心要点

  1. 现有基于语言反馈的强化学习方法依赖固定教师策略,其评估能力会随着学生策略提升而停滞。
  2. 论文提出变分策略蒸馏(VPD),通过EM算法共同优化教师和学生策略,动态提升教师的反馈质量。
  3. 实验表明,VPD在科学推理和代码生成任务上显著优于传统RLVR和自蒸馏方法,尤其在复杂推理和冷启动场景。

📝 摘要(中文)

从可验证奖励中进行强化学习(RLVR)面临着稀疏结果信号的问题,这在复杂的推理任务上造成了严重的探索瓶颈。最近的在线自蒸馏方法试图通过利用语言反馈来生成密集的token级别监督来解决这个问题。然而,这些方法依赖于固定的、被动的教师来解释反馈。随着学生策略的改进,教师的零样本评估能力达到瓶颈,最终停止进一步学习。为了克服这个问题,我们提出了变分策略蒸馏(VPD),该框架将从语言反馈中学习形式化为变分期望最大化(EM)问题。VPD共同进化两个策略:在E步骤中,通过自适应信任区域更新,在轨迹结果上主动改进教师策略,将文本反馈转化为动态改进的目标token分布。在M步骤中,学生策略在自己的在线rollout中内化这种密集的分布指导。通过不断提高教师从文本评论中提取可操作信号的能力,VPD克服了被动蒸馏的局限性。在科学推理和代码生成任务上,针对各种诊断反馈来源进行评估,VPD始终优于标准RLVR和现有的自蒸馏基线。最后,通过在严格的数学推理和冷启动机制上对我们的框架进行压力测试,我们阐明了与纯环境驱动的RL相比,反馈驱动的自蒸馏的根本界限。

🔬 方法详解

问题定义:现有基于语言反馈的强化学习方法,特别是自蒸馏方法,依赖于一个固定的教师模型来解析语言反馈并提供token级别的监督信号。然而,随着学生策略的不断改进,教师模型的零样本评估能力会达到瓶颈,无法提供更有效的指导,从而限制了学生策略的进一步提升。这种教师策略的停滞是现有方法的主要痛点。

核心思路:论文的核心思路是将从语言反馈中学习的过程形式化为一个变分期望最大化(EM)问题。通过共同进化教师和学生策略,动态地提升教师策略的反馈质量。具体来说,E步骤负责优化教师策略,使其能够更好地理解语言反馈并生成更准确的目标token分布;M步骤则负责利用教师策略提供的密集指导来更新学生策略。这种迭代优化的过程能够克服传统自蒸馏方法中教师策略停滞的问题。

技术框架:VPD框架包含两个主要模块:教师策略和学生策略。整体流程如下:1) 学生策略进行on-policy rollout,生成轨迹数据;2) 教师策略基于轨迹数据和语言反馈,通过自适应信任区域更新进行优化(E步骤),生成目标token分布;3) 学生策略利用教师策略提供的目标token分布进行蒸馏学习(M步骤),更新自身策略。这个过程不断迭代,直至收敛。

关键创新:VPD的关键创新在于其动态更新教师策略的能力。与传统的自蒸馏方法不同,VPD通过EM算法不断优化教师策略,使其能够更好地理解语言反馈并提供更准确的指导信号。这种动态更新机制克服了传统方法中教师策略停滞的问题,使得学生策略能够持续学习和提升。

关键设计:在E步骤中,使用自适应信任区域更新(Adaptive Trust Region Update)来优化教师策略,确保教师策略的更新幅度不会过大,从而保证训练的稳定性。在M步骤中,使用KL散度损失函数来衡量学生策略的输出分布与教师策略提供的目标token分布之间的差异,从而引导学生策略学习教师策略的知识。具体的网络结构和参数设置根据不同的任务进行调整,但整体框架保持不变。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VPD在科学推理和代码生成任务上均取得了显著的性能提升。例如,在某些任务上,VPD的性能超过了标准RLVR方法和现有自蒸馏基线,提升幅度达到10%以上。此外,VPD在冷启动场景下也表现出更强的鲁棒性,能够更快地学习到有效的策略。这些结果充分证明了VPD框架的有效性和优越性。

🎯 应用场景

VPD框架具有广泛的应用前景,可以应用于各种需要从语言反馈中学习的强化学习任务,例如机器人控制、对话系统、代码生成和科学推理等。通过利用VPD,可以显著提高智能体在复杂任务中的学习效率和性能,并降低对人工标注数据的依赖。该研究对于推动人工智能在复杂决策问题中的应用具有重要意义。

📄 摘要(原文)

Reinforcement learning from verifiable rewards (RLVR) suffers from sparse outcome signals, creating severe exploration bottlenecks on complex reasoning tasks. Recent on-policy self-distillation methods attempt to address this by utilizing language feedback to generate dense, token-level supervision. However, these approaches rely on a fixed, passive teacher to interpret the feedback. As the student policy improves, the teacher's zero-shot assessment capabilities plateau, ultimately halting further learning. To overcome this, we propose Variational Policy Distillation (VPD), a framework that formalizes learning from language feedback as a Variational Expectation-Maximization (EM) problem. VPD co-evolves both policies: in the E-step, the teacher is actively refined on trajectory outcomes via an adaptive trust-region update, translating textual feedback into a dynamically improved target token distribution. In the M-step, the student internalizes this dense distributional guidance on its own on-policy rollouts. By continuously improving the teacher's ability to extract actionable signals from textual critique, VPD overcomes the limitations of passive distillation. Evaluated across diverse sources of diagnostic feedback on scientific reasoning and code generation tasks, VPD consistently outperforms both standard RLVR and existing self-distillation baselines. Finally, by stress-testing our framework on rigid mathematical reasoning and cold-start regimes, we illuminate the fundamental bounds of feedback-driven self-distillation compared to pure environment-driven RL.