Vision-OPD: Learning to See Fine Details for Multimodal LLMs via On-Policy Self-Distillation

📄 arXiv: 2605.18740v1 📥 PDF

作者: Qianhao Yuan, Jie Lou, Xing Yu, Hongyu Lin, Le Sun, Xianpei Han, Yaojie Lu

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2026-05-18

备注: Project page: https://github.com/VisionOPD/Vision-OPD


💡 一句话要点

Vision-OPD:通过On-Policy自蒸馏提升多模态LLM的细粒度视觉理解能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 视觉理解 自蒸馏 细粒度识别 大语言模型

📋 核心要点

  1. 多模态大语言模型在处理依赖于图像细微信息的任务时表现不佳,难以有效聚焦关键区域。
  2. 提出Vision-OPD,利用区域到全局的自蒸馏,将模型在局部区域的优势知识迁移到全局图像理解。
  3. 实验表明,Vision-OPD在多个细粒度视觉理解任务上超越了更大的开源和闭源模型。

📝 摘要(中文)

多模态大型语言模型(MLLM)在细粒度视觉理解方面仍然面临挑战,答案通常依赖于完整图像中细小但关键的证据。我们观察到一种区域到全局的感知差距:当以证据为中心的图像裁剪区域为条件时,相同的MLLM比以相应的完整图像为条件时,能更准确地回答细粒度问题,这表明许多失败源于难以关注相关证据,而不是局部识别能力不足。受此启发,我们提出了Vision-OPD(Vision On-Policy Distillation),一个区域到全局的自蒸馏框架,将模型自身优越的区域感知能力迁移到其完整图像策略。Vision-OPD从同一个MLLM实例化两个条件策略:一个以裁剪区域为条件的教师和一个以完整图像为条件的学生。学生生成on-policy rollouts,Vision-OPD最小化教师和学生沿着这些rollouts的token级别下一个token分布的差异。这使得模型能够在没有外部教师模型、ground-truth标签、奖励验证器或推理时工具使用的情况下,内化视觉缩放的好处。在多个细粒度视觉理解基准上的实验表明,Vision-OPD模型实现了与更大的开源、闭源和“Thinking-with-Images”智能体模型相比,具有竞争力或更优越的性能。

🔬 方法详解

问题定义:多模态大语言模型(MLLM)在细粒度视觉理解上存在困难,具体表现为模型难以从全局图像中定位并关注到关键的局部证据,导致回答精度下降。现有方法要么依赖外部标注数据,要么需要复杂的推理时工具,增加了训练成本和推理复杂度。

核心思路:Vision-OPD的核心思想是利用模型自身在局部区域的优越感知能力,通过自蒸馏的方式,引导模型学习如何从全局图像中聚焦关键区域。通过让模型同时学习基于局部裁剪区域和全局图像的策略,并最小化两者之间的差异,从而提升模型对全局图像的细粒度理解能力。

技术框架:Vision-OPD包含两个主要模块:一个以裁剪区域为条件的教师模型和一个以完整图像为条件的学生模型。两个模型共享相同的MLLM架构。训练过程中,学生模型基于完整图像生成token序列(on-policy rollouts),教师模型基于对应的裁剪区域生成token序列。Vision-OPD通过最小化教师和学生模型在每个token上的概率分布差异,实现知识迁移。

关键创新:Vision-OPD的关键创新在于提出了一种无需外部监督信号的自蒸馏框架,通过让模型自身学习如何从局部到全局地理解图像,避免了对大量标注数据的依赖。此外,该方法不需要额外的推理时工具,保持了模型的简洁性和高效性。

关键设计:Vision-OPD的关键设计包括:1) 使用token级别的交叉熵损失来衡量教师和学生模型输出分布的差异;2) 采用on-policy rollouts生成训练数据,保证训练数据的质量;3) 精心设计的裁剪区域策略,确保裁剪区域包含关键的视觉证据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Vision-OPD在多个细粒度视觉理解基准测试中取得了显著成果,例如在某些任务上超越了更大的开源和闭源模型。实验结果表明,Vision-OPD能够有效提升模型对细粒度视觉信息的感知能力,并且在不需要额外标注数据和推理时工具的情况下,实现了性能提升。

🎯 应用场景

Vision-OPD具有广泛的应用前景,例如智能问答、图像描述、视觉诊断等领域。该方法可以提升模型在处理需要细粒度视觉理解的任务时的性能,例如医学影像分析、遥感图像解译、工业质检等。未来,Vision-OPD可以与其他技术结合,例如知识图谱、注意力机制等,进一步提升模型的视觉理解能力。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) still struggle with fine-grained visual understanding, where answers often depend on small but decisive evidence in the full image. We observe a regional-to-global perception gap: the same MLLM answers fine-grained questions more accurately when conditioned on evidence-centered crops than on the corresponding full images, suggesting that many failures stem from difficulty to focus on relevant evidence rather than insufficient local recognition ability. Motivated by this observation, we propose Vision-OPD (Vision On-Policy Distillation), a regional-to-global self-distillation framework that transfers the model's own privileged regional perception to its full-image policy. Vision-OPD instantiates two conditional policies from the same MLLM: a crop-conditioned teacher and a full-image-conditioned student. The student generates on-policy rollouts, and Vision-OPD minimizes token-level divergence between the teacher and student next-token distributions along these rollouts. This enables the model to internalize the benefit of visual zooming without external teacher models, ground-truth labels, reward verifiers, or inference-time tool use. Experiments on multiple fine-grained visual understanding benchmarks show that Vision-OPD models achieve competitive or superior performance against much larger open-source, closed-source, and "Thinking-with-Images" agentic models.