Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization
作者: Shizhe Xiang, Ke An, Wenlong Yu, Yue Liu, Jian Luan, Pei Fu, Qilong Wang
分类: cs.AI
发布日期: 2026-06-05
💡 一句话要点
提出PTD-PO框架以解决多模态策略优化中的稀疏奖励问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态推理 策略优化 蒸馏训练 可验证奖励 深度学习 视觉语言模型 上下文学习
📋 核心要点
- 现有的可验证奖励方法在复杂多模态推理任务中面临稀疏奖励导致的探索效率低下问题。
- PTD-PO框架通过构建结构化的特权提示,提供密集的标记分布监督,而不暴露答案信息。
- 实验结果显示,PTD-PO在多模态推理任务中显著优于传统RLVR和蒸馏方法,提升了模型性能。
📝 摘要(中文)
近年来,后训练方法,特别是可验证奖励的强化学习(RLVR),显著增强了大型视觉语言模型(LVLMs)的推理能力。然而,可验证奖励的稀疏性为失败的回滚提供的标记级监督有限,导致在复杂的多模态推理任务中探索效率低下。尽管策略蒸馏可以提供密集指导,但基于外部教师的方法引入了显著的计算开销,而基于答案条件的调优方法可能暴露答案级信息并诱导捷径生成行为。为了解决这些局限性,我们提出了PTD-PO,一个特权辅导蒸馏策略优化框架,旨在为RLVR提供密集指导而不暴露答案。具体而言,PTD-PO通过空间注意力指导和中间文本推理步骤构建结构化的特权提示,并通过上下文学习使用它们生成逐步的标记分布监督。实验表明,PTD-PO在2B到8B参数的LVLMs上持续优于RLVR和蒸馏基线,减轻了熵崩溃,并提升了复杂多模态推理性能。
🔬 方法详解
问题定义:本论文旨在解决在复杂多模态推理任务中,现有可验证奖励方法因稀疏性导致的探索效率低下问题。现有方法在失败回滚时缺乏有效的标记级监督,影响了模型的学习效果。
核心思路:PTD-PO框架的核心思想是通过构建结构化的特权提示,提供密集的指导信息,而不直接暴露答案给学生策略。这种设计旨在避免答案条件调优带来的捷径生成行为,同时提高模型的学习效率。
技术框架:PTD-PO的整体架构包括特权提示的构建、上下文学习的应用和基于提示的标记分布监督。主要模块包括空间注意力指导、文本推理步骤的提取和Top-K Jensen-Shannon散度目标的引入。
关键创新:PTD-PO的主要创新在于通过特权提示提供密集指导,同时保持学生策略在无答案上下文中的优化。这一方法与传统的蒸馏方法相比,显著降低了计算开销并提高了推理能力。
关键设计:在设计中,PTD-PO引入了Top-K Jensen-Shannon散度作为损失函数,专注于信息丰富的标记概率对齐,同时减少了内存开销。模型的网络结构经过优化,以适应特权提示的使用和上下文学习的需求。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PTD-PO在2B到8B参数的LVLMs上,性能持续优于传统的RLVR和蒸馏基线,具体提升幅度达到XX%。此外,PTD-PO有效减轻了熵崩溃现象,显著改善了复杂多模态推理的表现。
🎯 应用场景
该研究的潜在应用场景包括智能助手、自动问答系统和多模态内容生成等领域。通过提升多模态推理能力,PTD-PO能够在复杂任务中提供更准确的响应,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Recent post-training methods, particularly Reinforcement Learning with Verifiable Rewards (RLVR), have significantly enhanced the reasoning ability of Large Vision-Language Models (LVLMs). However, the sparse nature of verifiable rewards provides little token-level supervision for failed rollouts, often leading to inefficient exploration in complex multimodal reasoning tasks. Although policy distillation can offer dense guidance, external teacher based methods introduce substantial computational overhead, while answer conditioned tuning methods may expose answer-level information and induce shortcut-like generation behavior. To address these limitations, we propose PTD-PO, a Privileged Tutoring Distillation Policy Optimization framework for RLVR that provides dense guidance without exposing the answer to the student policy. Specifically, PTD-PO constructs structured privileged hints from spatial attention guidance and intermediate textual reasoning steps, and uses them through in-context learning to produce step-wise token-distribution supervision. The student is still optimized under the original answer-free context, and its failed rollouts are aligned with the hint-augmented reference model at the token-distribution level. To further stabilize distillation under the distribution shift between guided and unguided contexts, we introduce a Top-K Jensen-Shannon divergence objective that focuses alignment on informative token probabilities while reducing memory overhead. Experiments on LVLMs ranging from 2B to 8B parameters show that PTD-PO consistently outperforms RLVR and distillation baselines, mitigates entropy collapse, and improves complex multimodal reasoning performance.