Hide to See: Reasoning-prefix Masking for Visual-anchored Thinking in VLM Distillation

📄 arXiv: 2605.11651v1 📥 PDF

作者: Seonghoon Yu, Dongjun Nam, Byung-Kwan Lee, Jeany Son

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-05-12

备注: Pre-print


💡 一句话要点

提出基于推理前缀掩码的视觉锚定蒸馏方法,提升VLM在多模态推理中的视觉信息利用率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 多模态推理 知识蒸馏 视觉锚定 推理前缀掩码

📋 核心要点

  1. 现有VLM的think-answer方法计算成本高,难以实际部署,需要蒸馏到更紧凑的模型中。
  2. 通过掩盖学生模型显著的推理前缀,迫使其更多地依赖视觉信息进行推理,实现视觉锚定。
  3. 实验表明,该方法在多模态推理任务上超越了现有VLM和蒸馏方法,并提升了视觉信息利用率。

📝 摘要(中文)

本文提出了一种新颖的think-answer视觉语言模型(VLM)蒸馏框架,旨在提升学生模型在推理过程中对视觉信息的利用能力。该框架通过掩盖学生模型显著的推理前缀,鼓励其更多地依赖视觉证据。具体而言,采用了两种掩码策略:1) token级别的显著推理前缀掩码,选择性地掩盖对每个next-token预测具有高影响力的推理前缀;2) 自步掩码预算调度,根据蒸馏难度(由师生模型分布差异衡量)逐步增加掩码规模。在蒸馏阶段,学生模型使用显著推理前缀掩码(屏蔽未来token和显著推理线索)代替标准因果掩码。实验结果表明,该方法在多模态推理基准测试中优于现有的开源VLM、VLM蒸馏和自蒸馏方法,进一步的分析证实了学生模型在推理过程中视觉利用率的提高。

🔬 方法详解

问题定义:现有的大型视觉语言模型(VLM)虽然在推理任务上表现出色,但计算成本高昂,难以部署。将这些模型的推理能力蒸馏到更小的模型中是一个有效途径。然而,如何让学生模型更好地利用视觉信息进行推理,尤其是在think-answer的推理过程中,是一个挑战。现有方法可能无法充分利用视觉信息,导致推理性能受限。

核心思路:本文的核心思路是通过掩盖学生模型在推理过程中的关键文本线索(即显著的推理前缀),迫使学生模型更多地依赖视觉信息进行推理。这种方法类似于在学习过程中移除部分提示,让学生更加主动地寻找其他信息来源(这里是视觉信息)来完成任务。通过这种方式,学生模型可以更好地学习到如何将视觉信息融入到推理过程中。

技术框架:该方法是一个think-answer的蒸馏框架,主要包含以下几个阶段:1) 教师模型生成think-answer的推理过程;2) 使用提出的掩码策略对学生模型的推理前缀进行掩盖;3) 学生模型在被掩盖的推理前缀下进行推理,并尝试模仿教师模型的输出;4) 使用损失函数来衡量学生模型和教师模型之间的差异,并更新学生模型的参数。其中,掩码策略是该框架的关键组成部分。

关键创新:该方法最重要的创新点在于提出了基于推理前缀掩码的视觉锚定蒸馏方法。与传统的蒸馏方法不同,该方法不是简单地让学生模型模仿教师模型的输出,而是通过主动地移除学生模型的文本线索,迫使其更多地依赖视觉信息。这种方法可以有效地提升学生模型对视觉信息的利用率,从而提高其推理性能。

关键设计:该方法包含两个关键的设计:1) token级别的显著推理前缀掩码:使用梯度信息来衡量每个token对后续推理的影响力,并选择性地掩盖影响力高的token。具体来说,可以使用梯度范数或者注意力权重来衡量token的重要性。2) 自步掩码预算调度:根据学生模型和教师模型之间的差异动态地调整掩码的比例。如果学生模型和教师模型之间的差异较大,则增加掩码的比例,以迫使学生模型更多地依赖视觉信息。可以使用KL散度或者交叉熵来衡量学生模型和教师模型之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多模态推理基准测试中优于现有的开源VLM、VLM蒸馏和自蒸馏方法。具体性能提升数据未知,但论文强调该方法能够显著提高学生模型在推理过程中对视觉信息的利用率,从而提升整体推理性能。

🎯 应用场景

该研究成果可应用于各种需要多模态推理的场景,例如智能问答、视觉导航、机器人控制等。通过将大型VLM的推理能力蒸馏到更小的模型中,可以降低计算成本,使其能够在资源受限的设备上运行,从而推动VLM在实际应用中的普及。

📄 摘要(原文)

Recent think-answer approaches in VLMs, such as Qwen3-VL-Thinking, boost reasoning performance by leveraging intermediate thinking steps before the final answer, but their high computational cost limits real-world deployment. To distill such capabilities into compact think-answer VLMs, a primary objective is to improve the student's ability to utilize visual evidence throughout its reasoning trace. To this end, we introduce a novel think-answer distillation framework that encourages the student to anchor its thinking on visual information by masking the student's salient reasoning prefixes. To compensate for such masked textual cues, the student is encouraged to rely more on visual evidence as an alternative source of information during distillation. Our masking strategies include: 1) token-wise salient reasoning-prefix masking, which masks high-influence reasoning prefixes selectively for each next-token prediction, and 2) self-paced masking budget scheduling, which gradually increases the masking scale according to distillation difficulty, {measured by discrepancy between teacher--student distributions. In the distillation phase, the student is guided by our salient reasoning-prefix mask, which blocks both future tokens and salient reasoning cues, in place of the standard causal mask used for auto-regressive language modeling. Experimental results show that our approach outperforms recent open-source VLMs, VLM distillation, and self-distillation methods on multimodal reasoning benchmarks, while further analyses confirm enhanced visual utilization along the student thinking process.