Scaling Vision Pre-Training to 4K Resolution
作者: Baifeng Shi, Boyi Li, Han Cai, Yao Lu, Sifei Liu, Marco Pavone, Jan Kautz, Song Han, Trevor Darrell, Pavlo Molchanov, Hongxu Yin
分类: cs.CV
发布日期: 2025-03-25 (更新: 2025-08-03)
备注: CVPR 2025. Project Page: https://nvlabs.github.io/PS3
💡 一句话要点
PS3:通过局部对比学习将CLIP风格的视觉预训练扩展到4K分辨率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 高分辨率视觉 视觉预训练 对比学习 局部区域选择 多模态学习
📋 核心要点
- 现有视觉预训练方法受限于计算成本,难以处理高分辨率图像,影响了视觉细节的感知。
- PS3通过局部区域选择性处理和局部对比学习,显著降低了计算开销,实现了4K分辨率的视觉预训练。
- VILA-HD在多个基准测试中超越了现有视觉编码器和MLLM,并在新提出的4KPro基准上取得了显著提升。
📝 摘要(中文)
本文提出了一种名为PS3的方法,旨在将CLIP风格的视觉预训练扩展到4K分辨率,同时保持接近恒定的计算成本。与在全局图像表示上进行对比学习不同,PS3通过选择性地处理局部区域,并将这些区域与局部详细的文本描述进行对比来预训练模型。这种方法能够在显著降低计算开销的同时,学习高分辨率的图像表示。预训练后的PS3模型既能以低分辨率编码全局图像,又能根据显著性或与文本提示的相关性选择性地处理局部高分辨率区域。将PS3应用于多模态LLM(MLLM)后,得到的模型VILA-HD在高分辨率视觉感知方面显著优于没有高分辨率视觉预训练的基线模型,例如AnyRes和S^2,同时使用的token数量最多减少了4.3倍。PS3还为VILA-HD带来了吸引人的扩展特性,包括免费提升分辨率和扩展测试时计算以获得更好的性能。PS3和VILA-HD在多个基准测试中优于先前的视觉编码器和MLLM,并且比最新的token剪枝方法更有效率。此外,作者发现当前的基准测试并不需要4K分辨率的感知能力,因此提出了一个新的4K分辨率图像问答基准测试4KPro,VILA-HD在该基准测试上优于所有先前的MLLM。
🔬 方法详解
问题定义:现有视觉预训练方法,如CLIP,由于计算复杂度随图像分辨率呈平方增长,难以扩展到高分辨率图像(如4K)。这限制了模型对图像细节的感知能力,在高精度视觉任务中表现受限。现有方法的痛点在于无法在计算资源有限的情况下有效利用高分辨率图像信息。
核心思路:PS3的核心思路是避免对整张高分辨率图像进行全局处理,而是选择性地关注图像中的局部区域,并利用这些局部区域与对应的文本描述进行对比学习。通过这种方式,模型可以专注于图像中的关键细节,同时显著降低计算成本。这种设计借鉴了人类视觉系统关注局部细节的特性。
技术框架:PS3的整体框架包含以下几个主要模块:1) 局部区域选择模块:根据显著性或与文本提示的相关性选择图像中的局部区域。2) 局部区域编码器:将选择的局部区域编码成视觉特征。3) 文本编码器:将与局部区域相关的文本描述编码成文本特征。4) 对比学习模块:通过对比局部区域的视觉特征和文本特征,训练模型学习高分辨率图像表示。整个流程类似于CLIP,但操作对象从全局图像变为局部区域。
关键创新:PS3最重要的技术创新点在于将对比学习从全局图像级别转移到局部区域级别。这种局部对比学习的方式使得模型能够专注于图像中的关键细节,从而在计算资源有限的情况下实现高分辨率视觉预训练。与现有方法的本质区别在于,PS3避免了对整张高分辨率图像进行全局处理,从而显著降低了计算成本。
关键设计:PS3的关键设计包括:1) 局部区域选择策略:可以使用显著性检测算法或基于文本提示的区域选择方法。2) 局部区域编码器:可以使用各种卷积神经网络或Transformer模型。3) 对比损失函数:可以使用InfoNCE损失函数或其他对比学习损失函数。4) 训练数据:需要包含高分辨率图像以及与局部区域相关的文本描述。
🖼️ 关键图片
📊 实验亮点
VILA-HD在高分辨率视觉感知方面显著优于现有模型,例如在4KPro基准测试中,VILA-HD比GPT-4o提高了16.1%,比Qwen2.5-VL提高了7.5%,并且速度提高了1.67倍。此外,VILA-HD在使用更少token的情况下,在高分辨率视觉任务中取得了更好的性能,展示了PS3的效率和可扩展性。
🎯 应用场景
PS3和VILA-HD在需要高分辨率视觉感知的领域具有广泛的应用前景,例如自动驾驶、医学图像分析、遥感图像处理、高清视频理解等。该研究可以提升这些领域中模型的性能和效率,并为未来的高分辨率视觉感知研究提供新的思路。
📄 摘要(原文)
High-resolution perception of visual details is crucial for daily tasks. Current vision pre-training, however, is still limited to low resolutions (e.g., 378 x 378 pixels) due to the quadratic cost of processing larger images. We introduce PS3 that scales CLIP-style vision pre-training to 4K resolution with a near-constant cost. Instead of contrastive learning on global image representation, PS3 is pre-trained by selectively processing local regions and contrasting them with local detailed captions, enabling high-resolution representation learning with greatly reduced computational overhead. The pre-trained PS3 is able to both encode the global image at low resolution and selectively process local high-resolution regions based on their saliency or relevance to a text prompt. When applying PS3 to multi-modal LLM (MLLM), the resulting model, named VILA-HD, significantly improves high-resolution visual perception compared to baselines without high-resolution vision pre-training such as AnyRes and S^2 while using up to 4.3x fewer tokens. PS3 also unlocks appealing scaling properties of VILA-HD, including scaling up resolution for free and scaling up test-time compute for better performance. Compared to state of the arts, PS3 and VILA-HD outperform previous vision encoders (e.g., SigLIP2 and Perception Encoder) and MLLMs (e.g., NVILA and Qwen2.5-VL) respectively across multiple benchmarks and achieve better efficiency than latest token pruning approaches. Finally, we find current benchmarks do not require 4K-resolution perception, which motivates us to propose 4KPro, a new benchmark of image QA at 4K resolution, on which VILA-HD outperforms all previous MLLMs, including a 16.1% improvement over GPT-4o and a 7.5% improvement and 1.67x speedup over Qwen2.5-VL.