Boosting Visual Instruction Tuning with Self-Supervised Guidance
作者: Sophia Sirko-Galouchenko, Monika Wysoczanska, Andrei Bursuc, Nicolas Thome, Spyros Gidaris
分类: cs.CV
发布日期: 2026-04-14
🔗 代码/项目: GITHUB
💡 一句话要点
提出V-GIFT,通过自监督指导提升视觉指令微调,增强MLLM的视觉推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉指令微调 自监督学习 多模态大语言模型 视觉推理 自然语言指令
📋 核心要点
- MLLM在视觉推理任务中表现不佳,并非视觉表征弱,而是指令微调时视觉信息利用不足。
- 提出V-GIFT,将自监督任务转化为自然语言指令,增强视觉指令微调,无需额外标注和架构修改。
- 实验表明,仅使用少量视觉指导指令(3-10%),即可显著提升MLLM在视觉任务上的性能。
📝 摘要(中文)
多模态大型语言模型(MLLM)在许多视觉-语言任务上表现出色,但通常在需要细粒度视觉推理的以视觉为中心的问题上表现不佳。最近的证据表明,这种局限性并非源于较弱的视觉表征,而是源于指令微调期间视觉信息的未充分利用,在指令微调中,许多任务可以仅使用语言先验来部分解决。我们提出了一种简单而轻量级的方法,通过少量以视觉为基础的自监督任务来增强视觉指令微调,这些任务被表达为自然语言指令。通过将经典的自监督预训练任务(如旋转预测、颜色匹配和跨视角对应)重新构建为图像-指令-响应三元组,我们引入了在不依赖视觉证据的情况下无法解决的监督。我们的方法不需要人工标注,不需要架构修改,也不需要额外的训练阶段。在多个模型、训练方案和基准测试中,仅注入一小部分(3-10%)此类以视觉为基础的指令,就可以持续提高以视觉为中心的评估的性能。我们的发现强调了使用以视觉为基础的SSL任务进行指令微调,作为通过简单调整训练数据分布来提高MLLM中视觉推理能力的强大手段。代码可在https://github.com/sirkosophia/V-GIFT获取。
🔬 方法详解
问题定义:现有的多模态大型语言模型(MLLM)在视觉语言任务中表现良好,但对于需要细粒度视觉推理的任务,例如理解图像中的空间关系、颜色属性等,性能往往不佳。一个主要痛点是,在指令微调阶段,模型过度依赖语言先验知识,而未能充分利用图像中的视觉信息。这导致模型在没有真正理解图像内容的情况下,仅凭指令中的关键词就能给出看似合理的答案。
核心思路:论文的核心思路是通过引入以视觉为基础的自监督任务,来强制模型学习并利用图像中的视觉信息。具体来说,作者将一些经典的自监督预训练任务(如旋转预测、颜色匹配、跨视角对应)转化为自然语言指令的形式。这样,模型在训练过程中,不仅需要理解指令,还需要根据图像内容给出正确的响应,从而增强其视觉推理能力。
技术框架:V-GIFT方法的核心在于构建包含图像、指令和响应的三元组数据集。这些三元组来源于自监督任务的重新表述。例如,对于旋转预测任务,图像是原始图像,指令是“图像旋转了多少度?”,响应是旋转角度。然后,将这些三元组数据加入到指令微调的数据集中,与原有的视觉语言任务数据一起训练MLLM。整个过程不需要修改模型架构,也不需要额外的训练阶段。
关键创新:V-GIFT的关键创新在于将自监督学习与指令微调相结合,并以自然语言指令的形式来引导模型学习视觉信息。与传统的自监督预训练方法不同,V-GIFT直接在指令微调阶段引入视觉监督,避免了预训练和微调之间的gap。此外,V-GIFT不需要人工标注数据,降低了数据获取的成本。
关键设计:V-GIFT的关键设计在于如何将自监督任务转化为自然语言指令。作者选择了旋转预测、颜色匹配和跨视角对应这三个经典的自监督任务,并将它们分别转化为相应的指令。例如,对于颜色匹配任务,指令可以是“图中哪个区域的颜色与[颜色名称]最相似?”。此外,作者还控制了自监督数据的比例,实验表明,使用3-10%的自监督数据可以取得最佳效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,V-GIFT方法在多个基准测试中都取得了显著的性能提升。例如,在以视觉为中心的VQA任务上,V-GIFT可以将模型的准确率提高5-10个百分点。此外,实验还表明,V-GIFT方法对不同的MLLM模型和训练方案都具有良好的泛化能力。即使只使用少量(3-10%)的自监督数据,也能取得显著的提升。
🎯 应用场景
V-GIFT方法可应用于各种需要视觉推理的多模态任务,例如视觉问答、图像描述、视觉导航等。该方法能够提升MLLM在这些任务上的性能,使其能够更好地理解图像内容并做出更准确的判断。此外,V-GIFT还可以用于训练更强大的视觉助手,帮助人们解决实际生活中的问题,例如识别物体、理解场景等。
📄 摘要(原文)
Multimodal large language models (MLLMs) perform well on many vision-language tasks but often struggle with vision-centric problems that require fine-grained visual reasoning. Recent evidence suggests that this limitation arises not from weak visual representations, but from under-utilization of visual information during instruction tuning, where many tasks can be partially solved using language priors alone. We propose a simple and lightweight approach that augments visual instruction tuning with a small number of visually grounded self-supervised tasks expressed as natural language instructions. By reformulating classical self-supervised pretext tasks, such as rotation prediction, color matching, and cross-view correspondence, as image-instruction-response triplets, we introduce supervision that cannot be solved without relying on visual evidence. Our approach requires no human annotations, no architectural modifications, and no additional training stages. Across multiple models, training regimes, and benchmarks, injecting only a small fraction (3-10%) of such visually grounded instructions consistently improves performance on vision-centric evaluations. Our findings highlight instruction tuning with visually grounded SSL tasks as a powerful lever for improving visual reasoning in MLLMs through simple adjustments to the training data distribution. Code available at: https://github.com/sirkosophia/V-GIFT