Visual-Advantage On-Policy Distillation for Vision-Language Models

📄 arXiv: 2605.21924v1 📥 PDF

作者: Ruiqi Liu, Xiaolei Lv, Gengsheng Li, Ximo Zhu, Zhiheng Wang, Zhengbo Zhang, Junkai Chen, Zhiheng Li, Bo Li, Jun Gao, Shu Wu

分类: cs.CV

发布日期: 2026-05-21


💡 一句话要点

提出Visual-Advantage On-Policy Distillation,提升视觉语言模型对视觉输入的依赖

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 视觉语言模型 知识蒸馏 On-policy学习 视觉优势 数学推理

📋 核心要点

  1. 现有On-policy蒸馏方法在提升视觉语言模型输出质量的同时,未能有效增强模型对视觉信息的依赖。
  2. 论文提出Visual-Advantage On-Policy Distillation (VA-OPD)方法,通过视觉优势(VA)区分视觉关键token和语言token。
  3. 实验表明,VA-OPD在多个基准测试中优于标准On-policy蒸馏,且性能提升与模型和数据规模正相关。

📝 摘要(中文)

本文针对视觉语言模型(VLM)的On-policy知识蒸馏进行了研究,发现标准方法虽然能提升学生模型的输出质量,但未能有效增强其对视觉输入的依赖。为此,作者引入了视觉优势(VA)的概念,即教师模型在有无精细视觉信息时,对学生模型生成rollout的token-level log-probability差异。VA集中在少量token上,这些token携带视觉监督信号。据此,作者提出了Visual-Advantage On-Policy Distillation (VA-OPD)方法,通过rollout级别的VA重加权和token级别的KL散度分离,区别对待高VA和低VA的token。在Geometry3K和ViRL39K数据集上的实验表明,VA-OPD在数学推理和视觉理解的八个基准测试中均优于标准On-policy蒸馏,且增益随教师模型规模和数据规模单调增长。

🔬 方法详解

问题定义:现有On-policy知识蒸馏方法应用于视觉语言模型时,虽然可以提升学生模型的整体性能,但学生模型对视觉输入的依赖性并没有得到显著加强。具体表现为,在关键的视觉token上,学生模型的预测结果在有无精细视觉信息的情况下变化不大,而教师模型的预测则高度依赖视觉信息。因此,问题在于如何有效地将教师模型的视觉知识迁移到学生模型,增强学生模型对视觉信息的利用能力。

核心思路:论文的核心思路是利用“视觉优势”(Visual Advantage, VA)来区分哪些token是真正携带视觉信息的关键token,然后针对这些token进行更强的蒸馏。VA衡量的是教师模型在有无精细视觉信息时,对学生模型生成文本序列中每个token预测概率的影响。VA高的token表明教师模型对该token的预测更依赖视觉信息,因此这些token应该受到更多的关注。

技术框架:VA-OPD的整体框架仍然是On-policy知识蒸馏,但引入了VA作为指导信号。主要包含以下几个步骤:1. 学生模型生成文本序列(rollout)。2. 教师模型分别在有无精细视觉信息的情况下,对学生模型生成的文本序列进行评分,计算每个token的VA。3. 使用VA对rollout进行重加权,并对token级别的KL散度损失进行调整,区分高VA和低VA的token。4. 使用调整后的损失函数训练学生模型。

关键创新:最重要的创新点在于引入了视觉优势(VA)的概念,并将其应用于On-policy知识蒸馏。VA提供了一种量化token级别视觉信息重要性的方法,使得可以针对性地加强学生模型对视觉关键token的学习。与传统的On-policy蒸馏方法相比,VA-OPD能够更有效地利用教师模型的视觉知识,提升学生模型的视觉理解能力。

关键设计:VA-OPD的关键设计包括:1. 视觉优势的计算方式:VA被定义为教师模型在有无精细视觉信息时,对学生模型生成rollout的token-level log-probability差异。2. Rollout级别的重加权:使用trajectory-averaged VA对rollout进行重加权,鼓励学生模型生成更符合教师模型视觉依赖的序列。3. Token级别的KL散度分离:将token分为高VA和低VA两组,分别计算KL散度损失,并赋予不同的权重,更关注高VA token的学习。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VA-OPD在Geometry3K和ViRL39K数据集上训练后,在八个基准测试中均优于标准On-policy蒸馏。性能提升与教师模型规模(4B, 8B, 32B)和数据规模呈正相关,表明该方法能够有效利用大规模数据和模型。

🎯 应用场景

该研究成果可应用于各种需要视觉语言理解的场景,例如视觉问答、图像描述、视觉推理等。通过提升模型对视觉信息的利用能力,可以提高这些应用在复杂场景下的性能和鲁棒性。此外,该方法还可以用于训练更小、更高效的视觉语言模型,降低部署成本。

📄 摘要(原文)

On-policy knowledge distillation has proven effective for language models, yet its application to vision-language models (VLMs) remains underexplored. We observe that standard on-policy distillation can improve a student's output quality while failing to strengthen its reliance on visual input: on vision-critical tokens, the student's predictions remain largely unchanged whether or not fine-grained visual detail is present, even though the teacher's predictions depend heavily on it.To make this difference observable, we introduce visual advantage (VA), the token-level log-probability difference when the teacher scores a student-generated rollout with versus without access to fine-grained visual detail. VA is concentrated in a small minority of tokens, and these high-VA tokens are the ones that actually carry the visual supervision signal. This motivates a distillation objective that treats them differently from language scaffolding, so their contribution is not diluted by the abundant surrounding language tokens.We propose Visual-Advantage On-Policy Distillation (VA-OPD), which uses VA at two granularities: rollout-level reweighting by trajectory-averaged VA, and token-level KL averaged within high-VA and low-VA groups separately. We train on two math datasets (Geometry3K and ViRL39K) and evaluate on eight benchmarks covering both mathematical reasoning and visual understanding, across three teacher sizes (4B, 8B, and 32B) on the Qwen3-VL family. VA-OPD improves over standard on-policy distillation on every benchmark, with the gain growing monotonically along both the teacher-size and data-scale axes, suggesting that these factors compound consistently.