DV-SFT: Direct Vision Supervision for Fine-Grained Visual Understanding

📄 arXiv: 2605.26656v1 📥 PDF

作者: Jianfei Zhao, Feng Zhang, Xin Sun, Chong Feng, Bing Wang, Zhixing Tan

分类: cs.CV

发布日期: 2026-05-26

备注: Under Review


💡 一句话要点

提出DV-SFT,通过直接视觉监督提升多模态大语言模型的细粒度视觉理解能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 视觉监督 细粒度视觉理解 OCR 视觉-文本对齐

📋 核心要点

  1. 现有MLLM训练主要依赖文本token的监督,忽略了视觉token的直接监督,导致视觉理解能力不足。
  2. DV-SFT利用OCR场景中的视觉-文本对应关系,为视觉token构建token级别的显式监督信号,无需修改模型结构。
  3. 实验表明,DV-SFT在多个基准测试中优于标准SFT,有效提升了细粒度视觉理解和多模态对齐效率。

📝 摘要(中文)

多模态大语言模型通常以端到端的方式训练,以预测真实答案,但监督信号仅应用于文本token。视觉token作为视觉信息的核心载体,仅作为上下文的一部分进行隐式优化,导致粗粒度的视觉理解。先前的工作试图监督视觉输入,但不可避免地依赖于额外的组件,例如额外的解码器或前向传递,因为视觉token缺乏易于解释的标签。这限制了它们的实际适用性。在这项工作中,我们提出了直接视觉监督微调(DV-SFT),它为视觉token构建显式的token级别监督,并通过与文本相同的下一个token预测目标来训练它们。具体来说,我们利用OCR相关场景中直接的视觉-文本对应关系,并使用相应图像块中的单词自动标记每个视觉token。DV-SFT将MLLM视为黑盒,无需架构修改或额外的前向传递。大量实验证明了直接视觉监督的优越性。在三个领域内和四个领域外基准测试中,DV-SFT始终优于标准SFT。进一步的分析表明,视觉监督有效地增强了细粒度的视觉理解,并实现了更高的多模态对齐效率。

🔬 方法详解

问题定义:现有MLLM在训练时,视觉token的优化是隐式的,缺乏直接的监督信号,导致模型对视觉信息的理解不够精细,无法充分利用视觉信息。之前的尝试通常需要额外的模块或计算,增加了复杂性,限制了实际应用。

核心思路:DV-SFT的核心思路是为视觉token提供直接的、token级别的监督信号,使其能够像文本token一样通过下一个token预测目标进行训练。通过这种方式,模型可以更直接地学习视觉token与文本之间的对应关系,从而提升视觉理解能力。

技术框架:DV-SFT将MLLM视为一个黑盒,不需要修改其内部结构。其主要流程包括:1) 利用OCR相关场景的图像数据,这些数据具有明确的视觉-文本对应关系;2) 自动标注每个视觉token,使用其对应图像块中的文本作为标签;3) 使用标准的下一个token预测目标函数,同时训练文本token和视觉token。整个过程无需额外的前向传递或解码器。

关键创新:DV-SFT的关键创新在于提出了直接视觉监督的概念,并将其应用于MLLM的微调。与以往方法不同,DV-SFT避免了对视觉token的间接监督,而是通过直接的文本标签来指导视觉token的学习。这种方法简单有效,易于实现,并且具有广泛的适用性。

关键设计:DV-SFT的关键设计在于利用了OCR场景中视觉和文本的天然对应关系。通过这种对应关系,可以自动生成视觉token的标签,而无需人工标注。损失函数采用标准的交叉熵损失,用于预测下一个token。模型的训练过程与标准的SFT相同,只是增加了对视觉token的监督。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DV-SFT在三个领域内和四个领域外基准测试中均优于标准SFT。具体而言,DV-SFT在多个数据集上取得了显著的性能提升,证明了直接视觉监督的有效性。进一步的分析表明,DV-SFT能够有效增强细粒度的视觉理解,并提高多模态对齐的效率。

🎯 应用场景

DV-SFT具有广泛的应用前景,可以应用于各种需要细粒度视觉理解的多模态任务,例如文档理解、场景文本识别、视觉问答等。该方法可以提升模型在复杂视觉场景下的表现,并促进多模态信息的有效融合。未来,DV-SFT可以扩展到其他视觉任务,例如图像描述和视觉推理。

📄 摘要(原文)

Multimodal large language models are typically trained end-to-end to predict ground-truth answers, yet supervision signals are applied exclusively to text tokens. Visual tokens, the core carriers of visual information, are optimized only implicitly as part of the context, leading to coarse-grained visual understanding. Prior works attempt to supervise visual inputs but inevitably rely on auxiliary components such as additional decoders or forward passes, because visual tokens lack readily interpretable labels. This limits their practical applicability. In this work, we propose \textbf{D}irect \textbf{V}ision \textbf{S}upervised \textbf{F}ine-\textbf{T}uning (DV-SFT), which constructs explicit, token-level supervision for visual tokens and trains them through the same next-token prediction objective used for text. Specifically, we exploit the direct vision--text correspondence in OCR-related scenarios and automatically label each visual token with the word in its corresponding image patch. DV-SFT treats the MLLM as a black box, requiring no architectural modifications or additional forward passes. Extensive experiments demonstrate the superiority of direct vision supervision. DV-SFT consistently outperforms standard SFT across three in-domain and four out-of-domain benchmarks. Further analyses show that vision supervision effectively enhances fine-grained visual understanding and achieves higher multimodal alignment efficiency.