Visual Instruction Pretraining for Domain-Specific Foundation Models

作者: Yuxuan Li, Yicheng Zhang, Wenhao Tang, Yimian Dai, Ming-Ming Cheng, Xiang Li, Jian Yang

分类: cs.CV

发布日期: 2026-02-28

💡 一句话要点

提出视觉指令预训练方法以提升领域特定基础模型的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉指令预训练 视觉变换器 领域特定模型 视觉鲁棒性学习 计算机视觉 遥感 医学成像

📋 核心要点

现有方法未能充分探索高层推理对低层感知特征学习的影响，导致基础模型性能不足。
本文提出视觉指令预训练（ViTP），通过将推理与感知相结合，增强模型的学习能力。
在16个遥感和医学成像基准上，ViTP实现了新的最先进性能，展示了其在多种任务中的有效性。

📝 摘要（中文）

现代计算机视觉正朝着感知、推理和生成相互强化的闭环发展。然而，高层推理对低层感知特征学习的自上而下影响尚未得到充分探索。本文提出了一种新的预训练基础模型的范式，称为视觉指令预训练（ViTP），该方法直接利用推理来增强感知。ViTP将视觉变换器（ViT）嵌入视觉语言模型中，并使用来自目标下游领域的丰富视觉指令数据进行端到端预训练。通过提出的视觉鲁棒性学习（VRL），ViTP促使ViT从稀疏的视觉标记中学习稳健且与领域相关的特征。在16个具有挑战性的遥感和医学成像基准上进行的广泛实验表明，ViTP在多种下游任务中建立了新的最先进性能。

🔬 方法详解

问题定义：本文旨在解决高层推理对低层感知特征学习影响不足的问题。现有方法往往忽视了推理与感知之间的相互作用，导致模型在特定领域的表现不佳。

核心思路：论文提出的视觉指令预训练（ViTP）方法，通过将视觉变换器（ViT）与视觉语言模型结合，利用推理来增强感知能力，从而提升基础模型的学习效果。

技术框架：ViTP的整体架构包括一个嵌入ViT的视觉语言模型，采用丰富的视觉指令数据进行端到端的预训练。该框架通过视觉鲁棒性学习（VRL）来确保模型学习到稳健的领域相关特征。

关键创新：ViTP的核心创新在于将推理直接融入感知学习过程，利用视觉指令数据进行预训练，从而实现了更高效的特征学习。这一方法与传统的单一感知学习方法有本质区别。

关键设计：在模型设计中，采用了特定的损失函数以促进鲁棒性学习，并通过稀疏视觉标记的选择来增强模型的领域适应性。

🖼️ 关键图片

📊 实验亮点

在16个遥感和医学成像基准上，ViTP实现了新的最先进性能，较现有基线提升了显著的准确率，展示了其在复杂任务中的强大能力。

🎯 应用场景

该研究的潜在应用领域包括遥感图像分析、医学成像处理等，能够为这些领域提供更为精准的模型支持。通过提升基础模型的性能，ViTP有望在实际应用中显著改善任务效果，推动相关技术的发展。

📄 摘要（原文）

Modern computer vision is converging on a closed loop in which perception, reasoning and generation mutually reinforce each other. However, this loop remains incomplete: the top-down influence of high-level reasoning on the foundational learning of low-level perceptual features is not yet underexplored. This paper addresses this gap by proposing a new paradigm for pretraining foundation models in downstream domains. We introduce Visual insTruction Pretraining (ViTP), a novel approach that directly leverages reasoning to enhance perception. ViTP embeds a Vision Transformer (ViT) backbone within a Vision-Language Model and pretrains it end-to-end using a rich corpus of visual instruction data curated from target downstream domains. ViTP is powered by our proposed Visual Robustness Learning (VRL), which compels the ViT to learn robust and domain-relevant features from a sparse set of visual tokens. Extensive experiments on 16 challenging remote sensing and medical imaging benchmarks demonstrate that ViTP establishes new state-of-the-art performance across a diverse range of downstream tasks. The code is available atthis https URL.

Visual Instruction Pretraining for Domain-Specific Foundation Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理