Visual Instruction Pretraining for Domain-Specific Foundation Models

📄 arXiv: 2509.17562 📥 PDF

作者: Yuxuan Li, Yicheng Zhang, Wenhao Tang, Yimian Dai, Ming-Ming Cheng, Xiang Li, Jian Yang

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出视觉指令预训练方法以提升领域特定基础模型的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉指令预训练 视觉变换器 领域特定模型 视觉鲁棒性学习 计算机视觉 遥感 医学成像

📋 核心要点

  1. 现有方法未能充分探索高层推理对低层感知特征学习的影响,导致基础模型性能不足。
  2. 本文提出视觉指令预训练(ViTP),通过将推理与感知相结合,增强模型的学习能力。
  3. 在16个遥感和医学成像基准上,ViTP实现了新的最先进性能,展示了其在多种任务中的有效性。

📝 摘要(中文)

现代计算机视觉正朝着感知、推理和生成相互强化的闭环发展。然而,高层推理对低层感知特征学习的自上而下影响尚未得到充分探索。本文提出了一种新的预训练基础模型的范式,称为视觉指令预训练(ViTP),该方法直接利用推理来增强感知。ViTP将视觉变换器(ViT)嵌入视觉语言模型中,并使用来自目标下游领域的丰富视觉指令数据进行端到端预训练。通过提出的视觉鲁棒性学习(VRL),ViTP促使ViT从稀疏的视觉标记中学习稳健且与领域相关的特征。在16个具有挑战性的遥感和医学成像基准上进行的广泛实验表明,ViTP在多种下游任务中建立了新的最先进性能。

🔬 方法详解

问题定义:本文旨在解决高层推理对低层感知特征学习影响不足的问题。现有方法往往忽视了推理与感知之间的相互作用,导致模型在特定领域的表现不佳。

核心思路:论文提出的视觉指令预训练(ViTP)方法,通过将视觉变换器(ViT)与视觉语言模型结合,利用推理来增强感知能力,从而提升基础模型的学习效果。

技术框架:ViTP的整体架构包括一个嵌入ViT的视觉语言模型,采用丰富的视觉指令数据进行端到端的预训练。该框架通过视觉鲁棒性学习(VRL)来确保模型学习到稳健的领域相关特征。

关键创新:ViTP的核心创新在于将推理直接融入感知学习过程,利用视觉指令数据进行预训练,从而实现了更高效的特征学习。这一方法与传统的单一感知学习方法有本质区别。

关键设计:在模型设计中,采用了特定的损失函数以促进鲁棒性学习,并通过稀疏视觉标记的选择来增强模型的领域适应性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在16个遥感和医学成像基准上,ViTP实现了新的最先进性能,较现有基线提升了显著的准确率,展示了其在复杂任务中的强大能力。

🎯 应用场景

该研究的潜在应用领域包括遥感图像分析、医学成像处理等,能够为这些领域提供更为精准的模型支持。通过提升基础模型的性能,ViTP有望在实际应用中显著改善任务效果,推动相关技术的发展。

📄 摘要(原文)

Modern computer vision is converging on a closed loop in which perception, reasoning and generation mutually reinforce each other. However, this loop remains incomplete: the top-down influence of high-level reasoning on the foundational learning of low-level perceptual features is not yet underexplored. This paper addresses this gap by proposing a new paradigm for pretraining foundation models in downstream domains. We introduce Visual insTruction Pretraining (ViTP), a novel approach that directly leverages reasoning to enhance perception. ViTP embeds a Vision Transformer (ViT) backbone within a Vision-Language Model and pretrains it end-to-end using a rich corpus of visual instruction data curated from target downstream domains. ViTP is powered by our proposed Visual Robustness Learning (VRL), which compels the ViT to learn robust and domain-relevant features from a sparse set of visual tokens. Extensive experiments on 16 challenging remote sensing and medical imaging benchmarks demonstrate that ViTP establishes new state-of-the-art performance across a diverse range of downstream tasks. The code is available atthis https URL.