Visual Instruction Pretraining for Domain-Specific Foundation Models
作者: Yuxuan Li, Yicheng Zhang, Wenhao Tang, Yimian Dai, Ming-Ming Cheng, Xiang Li, Jian Yang
分类: cs.CV
发布日期: 2026-02-28
💡 一句话要点
提出视觉指令预训练方法以提升领域特定基础模型的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉指令预训练 视觉变换器 领域特定模型 视觉鲁棒性学习 计算机视觉 遥感 医学成像
📋 核心要点
- 现有方法未能充分探索高层推理对低层感知特征学习的影响,导致基础模型性能不足。
- 本文提出视觉指令预训练(ViTP),通过将推理与感知相结合,增强模型的学习能力。
- 在16个遥感和医学成像基准上,ViTP实现了新的最先进性能,展示了其在多种任务中的有效性。
📝 摘要(中文)
现代计算机视觉正朝着感知、推理和生成相互强化的闭环发展。然而,高层推理对低层感知特征学习的自上而下影响尚未得到充分探索。本文提出了一种新的预训练基础模型的范式,称为视觉指令预训练(ViTP),该方法直接利用推理来增强感知。ViTP将视觉变换器(ViT)嵌入视觉语言模型中,并使用来自目标下游领域的丰富视觉指令数据进行端到端预训练。通过提出的视觉鲁棒性学习(VRL),ViTP促使ViT从稀疏的视觉标记中学习稳健且与领域相关的特征。在16个具有挑战性的遥感和医学成像基准上进行的广泛实验表明,ViTP在多种下游任务中建立了新的最先进性能。
🔬 方法详解
问题定义:本文旨在解决高层推理对低层感知特征学习影响不足的问题。现有方法往往忽视了推理与感知之间的相互作用,导致模型在特定领域的表现不佳。
核心思路:论文提出的视觉指令预训练(ViTP)方法,通过将视觉变换器(ViT)与视觉语言模型结合,利用推理来增强感知能力,从而提升基础模型的学习效果。
技术框架:ViTP的整体架构包括一个嵌入ViT的视觉语言模型,采用丰富的视觉指令数据进行端到端的预训练。该框架通过视觉鲁棒性学习(VRL)来确保模型学习到稳健的领域相关特征。
关键创新:ViTP的核心创新在于将推理直接融入感知学习过程,利用视觉指令数据进行预训练,从而实现了更高效的特征学习。这一方法与传统的单一感知学习方法有本质区别。
关键设计:在模型设计中,采用了特定的损失函数以促进鲁棒性学习,并通过稀疏视觉标记的选择来增强模型的领域适应性。
🖼️ 关键图片
📊 实验亮点
在16个遥感和医学成像基准上,ViTP实现了新的最先进性能,较现有基线提升了显著的准确率,展示了其在复杂任务中的强大能力。
🎯 应用场景
该研究的潜在应用领域包括遥感图像分析、医学成像处理等,能够为这些领域提供更为精准的模型支持。通过提升基础模型的性能,ViTP有望在实际应用中显著改善任务效果,推动相关技术的发展。
📄 摘要(原文)
Modern computer vision is converging on a closed loop in which perception, reasoning and generation mutually reinforce each other. However, this loop remains incomplete: the top-down influence of high-level reasoning on the foundational learning of low-level perceptual features is not yet underexplored. This paper addresses this gap by proposing a new paradigm for pretraining foundation models in downstream domains. We introduce Visual insTruction Pretraining (ViTP), a novel approach that directly leverages reasoning to enhance perception. ViTP embeds a Vision Transformer (ViT) backbone within a Vision-Language Model and pretrains it end-to-end using a rich corpus of visual instruction data curated from target downstream domains. ViTP is powered by our proposed Visual Robustness Learning (VRL), which compels the ViT to learn robust and domain-relevant features from a sparse set of visual tokens. Extensive experiments on 16 challenging remote sensing and medical imaging benchmarks demonstrate that ViTP establishes new state-of-the-art performance across a diverse range of downstream tasks. The code is available atthis https URL.