Beyond Single-Sample: Reliable Multi-Sample Distillation for Video Understanding

📄 arXiv: 2603.11423v1 📥 PDF

作者: Songlin Li, Xin Zhu, Zechao Guan, Peipeng Chen, Jian Yao

分类: cs.CV

发布日期: 2026-03-12


💡 一句话要点

提出R-MSD框架,通过多样本蒸馏提升视频理解中LVLM的可靠性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频理解 多样本蒸馏 知识蒸馏 大型视觉语言模型 多模态学习

📋 核心要点

  1. 现有LVLM的黑盒蒸馏依赖单样本教师响应,导致多模态视频理解任务中监督信号不稳定。
  2. R-MSD框架通过构建任务自适应的教师池,建模教师抽样方差,提供更鲁棒的监督信号。
  3. 实验表明,R-MSD在多个视频理解基准上显著优于单样本蒸馏方法,提升了模型性能。

📝 摘要(中文)

针对大型视觉-语言模型(LVLM)的黑盒蒸馏通常依赖于每个输入的单个教师响应,这在多模态或时序场景中容易产生高方差的响应和格式不一致的问题。为了缓解这种不可靠的监督,我们提出了可靠多样本蒸馏(R-MSD)框架,该框架显式地建模教师抽样的方差,以增强蒸馏的稳定性。我们的方法不是依赖于单个教师响应,而是利用任务自适应的教师池来提供针对封闭式和开放式推理的鲁棒监督。通过将质量感知的信号匹配与对抗性蒸馏目标相结合,我们的方法有效地过滤教师噪声,同时最大化知识转移。在全面的视频理解基准上的广泛评估表明,R-MSD始终优于单样本蒸馏方法。我们还在相同的训练预算下包含了一个原始的SFT+RL 4B基线,结果显示只有边际收益,而我们的方法实现了显著的改进。使用4B学生模型,我们的方法在VideoMME(+1.5%)、Video-MMMU(+3.2%)和MathVerse(+3.6%)上实现了提升。

🔬 方法详解

问题定义:现有的大型视觉语言模型(LVLM)蒸馏方法,在视频理解任务中,通常只使用单个教师模型的输出作为监督信号。这种单样本的方式容易受到教师模型输出方差的影响,尤其是在多模态和时序数据中,导致训练不稳定和性能下降。现有方法缺乏对教师模型输出质量的考量,无法有效过滤噪声。

核心思路:R-MSD的核心思路是利用多个教师模型的输出构建一个教师池,并显式地建模教师输出的方差。通过引入质量感知的信号匹配机制,选择高质量的教师信号进行知识迁移,从而提高蒸馏的稳定性和有效性。同时,采用对抗性蒸馏目标,进一步增强学生模型的泛化能力。

技术框架:R-MSD框架主要包含以下几个模块:1) 任务自适应教师池构建:根据特定任务选择合适的教师模型,构建教师池。2) 多样本生成:对于每个输入样本,从教师池中采样多个教师响应。3) 质量感知信号匹配:评估每个教师响应的质量,并选择高质量的信号进行匹配。4) 对抗性蒸馏:通过对抗训练,使学生模型的输出分布逼近教师模型输出分布。

关键创新:R-MSD的关键创新在于:1) 显式地建模教师输出的方差,并利用多样本信息提高蒸馏的鲁棒性。2) 引入质量感知的信号匹配机制,有效过滤教师噪声。3) 结合对抗性蒸馏目标,增强学生模型的泛化能力。与现有单样本蒸馏方法相比,R-MSD能够提供更稳定、更可靠的监督信号。

关键设计:在教师池构建方面,可以根据任务类型选择不同的预训练LVLM。质量感知信号匹配可以通过计算教师响应与ground truth之间的相似度来实现。对抗性蒸馏可以使用Wasserstein GAN等方法,优化学生模型的输出分布。损失函数可以结合交叉熵损失、KL散度损失和对抗损失等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

R-MSD在VideoMME、Video-MMMU和MathVerse等多个视频理解基准上取得了显著的性能提升。具体而言,使用4B学生模型,R-MSD在VideoMME上提升了1.5%,在Video-MMMU上提升了3.2%,在MathVerse上提升了3.6%。与相同训练预算下的SFT+RL 4B基线相比,R-MSD的提升更为显著,验证了该方法的有效性。

🎯 应用场景

R-MSD框架可广泛应用于视频理解相关的任务,例如视频问答、视频描述生成、动作识别等。该方法能够提升学生模型在资源受限环境下的性能,降低模型部署成本。此外,R-MSD的思路也可以推广到其他多模态学习和知识蒸馏场景,具有重要的实际应用价值和潜在的未来影响。

📄 摘要(原文)

Traditional black-box distillation for Large Vision-Language Models (LVLMs) typically relies on a single teacher response per input, which often yields high-variance responses and format inconsistencies in multimodal or temporal scenarios. To mitigate this unreliable supervision, we propose R-MSD (Reliable Multi-Sample Distillation), a framework that explicitly models teacher sampling variance to enhance distillation stability. Rather than relying on a single teacher response, our approach leverages a task-adaptive teacher pool to provide robust supervision tailored to both closed-ended and open-ended reasoning. By integrating quality-aware signal matching with an adversarial distillation objective, our approach effectively filters teacher noise while maximizing knowledge transfer. Extensive evaluations across comprehensive video understanding benchmarks demonstrate that R-MSD consistently outperforms single sample distillation methods. We additionally include an original SFT+RL 4B baseline under the same training budget, which shows only marginal gains, while our method achieves significant improvements. With a 4B student model, our approach delivers gains on VideoMME (+1.5%), Video-MMMU (+3.2%), and MathVerse (+3.6%).