FineViT: Progressively Unlocking Fine-Grained Perception with Dense Recaptions

📄 arXiv: 2603.17326v1 📥 PDF

作者: Peisen Zhao, Xiaopeng Zhang, Mingxing Xu, Ruoyu Sun, Zewei Du, Dunzheng Wang, Guanghao Zheng, Haohang Xu, Zhibo Zhang, Yuhang Zhang, Yi Ai, Lin Liu, Qi Tian

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

FineViT:通过密集重述解锁细粒度感知,提升视觉编码器性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细粒度感知 视觉编码器 多模态学习 图像检索 零样本学习

📋 核心要点

  1. 现有MLLM的视觉编码器受限于低分辨率预训练和粗糙数据,导致视觉细节丢失,影响密集空间任务性能。
  2. FineViT通过渐进式训练范式,利用高质量的全局和局部重述图像-文本对,从头训练高分辨率视觉编码器。
  3. 实验表明,FineViT在零样本识别、检索和MLLM集成方面均优于现有方法,尤其在长上下文检索中表现突出。

📝 摘要(中文)

多模态大型语言模型(MLLM)取得了快速进展,但其视觉编码器常常成为性能瓶颈。传统的基于CLIP的编码器由于低分辨率预训练和依赖于噪声大的粗糙网络爬取图像-文本对,导致视觉细节丢失,难以胜任密集的空间任务。为了克服这些限制,我们提出了FineViT,一种专门用于解锁细粒度感知的新型视觉编码器。通过用密集重述替换粗糙的网络数据,我们通过渐进式训练范式系统地减轻信息损失:首先,编码器在高原生分辨率下,在数十亿全局重述图像-文本对上从头开始训练,建立一个鲁棒、细节丰富的语义基础。随后,我们利用我们策划的FineCap-450M数据集(包含超过4.5亿高质量局部字幕)通过LLM对齐进一步增强其局部感知。大量的实验验证了渐进式策略的有效性。FineViT实现了最先进的零样本识别和检索性能,尤其是在长上下文检索中,并且在集成到MLLM中时,始终优于SigLIP2和Qwen-ViT等视觉编码器。我们希望FineViT能够成为细粒度视觉感知的一个强大的新基线。

🔬 方法详解

问题定义:现有的多模态大语言模型(MLLM)的视觉编码器,特别是基于CLIP的编码器,在处理需要细粒度视觉信息的任务时表现不佳。这主要是因为它们通常在低分辨率图像上进行预训练,并且依赖于从网络上抓取的、包含大量噪声的图像-文本对。这些因素导致视觉细节的丢失,使得模型难以理解图像中的细微差异和局部特征。因此,如何提升视觉编码器对细粒度视觉信息的感知能力,成为了一个重要的研究问题。

核心思路:FineViT的核心思路是通过渐进式训练范式,利用高质量的密集重述(recaptions)数据来训练视觉编码器。具体来说,首先使用大量的全局重述图像-文本对,在高分辨率下从头开始训练编码器,以建立一个鲁棒且细节丰富的语义基础。然后,利用高质量的局部字幕数据,通过LLM对齐进一步增强编码器的局部感知能力。这种渐进式的训练方式可以有效地减轻信息损失,并逐步提升编码器对细粒度视觉信息的理解能力。

技术框架:FineViT的整体框架包含两个主要的训练阶段:全局重述训练和局部字幕对齐。在全局重述训练阶段,使用数十亿的全局重述图像-文本对,在高分辨率下从头开始训练视觉编码器。这个阶段的目标是让编码器学习到图像的整体语义信息,并建立一个鲁棒的视觉表示。在局部字幕对齐阶段,使用FineCap-450M数据集,该数据集包含超过4.5亿高质量的局部字幕。通过LLM对齐,将局部字幕信息融入到视觉编码器中,从而增强其局部感知能力。

关键创新:FineViT最重要的技术创新点在于其渐进式的训练范式和高质量的密集重述数据的使用。与传统的基于CLIP的编码器不同,FineViT不是在低分辨率图像和噪声数据上进行预训练,而是在高分辨率图像和高质量的重述数据上从头开始训练。这种训练方式可以有效地减轻信息损失,并逐步提升编码器对细粒度视觉信息的理解能力。此外,FineCap-450M数据集的构建也是一个重要的创新,它为局部字幕对齐提供了高质量的数据支持。

关键设计:FineViT的关键设计包括以下几个方面:1) 使用高原生分辨率进行训练,以保留更多的视觉细节。2) 使用大量的全局重述图像-文本对,以建立一个鲁棒的语义基础。3) 使用FineCap-450M数据集,通过LLM对齐增强局部感知能力。4) 采用渐进式的训练范式,逐步提升编码器对细粒度视觉信息的理解能力。具体的网络结构细节和损失函数选择在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FineViT在零样本识别和检索任务中取得了最先进的性能,尤其是在长上下文检索方面表现突出。当集成到MLLM中时,FineViT始终优于SigLIP2和Qwen-ViT等视觉编码器。这些实验结果表明,FineViT能够有效地提升视觉编码器对细粒度视觉信息的感知能力,并为多模态任务带来显著的性能提升。

🎯 应用场景

FineViT在多个领域具有广泛的应用前景,例如图像检索、细粒度图像分类、视觉问答、机器人视觉等。它可以用于提升多模态大语言模型在处理需要细粒度视觉信息的任务时的性能,例如医学图像分析、遥感图像解译、工业质检等。此外,FineViT还可以作为视觉编码器的基线模型,用于进一步的研究和开发。

📄 摘要(原文)

While Multimodal Large Language Models (MLLMs) have experienced rapid advancements, their visual encoders frequently remain a performance bottleneck. Conventional CLIP-based encoders struggle with dense spatial tasks due to the loss of visual details caused by low-resolution pretraining and the reliance on noisy, coarse web-crawled image-text pairs. To overcome these limitations, we introduce FineViT, a novel vision encoder specifically designed to unlock fine-grained perception. By replacing coarse web data with dense recaptions, we systematically mitigate information loss through a progressive training paradigm.: first, the encoder is trained from scratch at a high native resolution on billions of global recaptioned image-text pairs, establishing a robust, detail rich semantic foundation. Subsequently, we further enhance its local perception through LLM alignment, utilizing our curated FineCap-450M dataset that comprises over $450$ million high quality local captions. Extensive experiments validate the effectiveness of the progressive strategy. FineViT achieves state-of-the-art zero-shot recognition and retrieval performance, especially in long-context retrieval, and consistently outperforms multimodal visual encoders such as SigLIP2 and Qwen-ViT when integrated into MLLMs. We hope FineViT could serve as a powerful new baseline for fine-grained visual perception.