UniViTAR: Unified Vision Transformer with Native Resolution
作者: Limeng Qiao, Yiyang Gan, Bairui Wang, Jie Qin, Shuang Xu, Siqi Yang, Lin Ma
分类: cs.CV
发布日期: 2025-04-02 (更新: 2025-05-29)
💡 一句话要点
UniViTAR:面向多模态统一和原生分辨率的视觉Transformer基础模型
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉Transformer 原生分辨率 多模态学习 渐进式训练 特征蒸馏
📋 核心要点
- 传统ViT简化视觉建模,忽略了视觉数据的多样性,牺牲了空间上下文保真度,原生分辨率建模仍缺乏系统分析。
- UniViTAR通过架构升级和渐进式训练范式,实现了对原生分辨率和多模态数据的有效建模。
- 实验表明,UniViTAR在多个模型规模上均表现出有效性,证明了其在视觉表示学习方面的潜力。
📝 摘要(中文)
本文提出UniViTAR,一个为多模态统一和原生分辨率场景量身定制的同构视觉基础模型系列。该框架首先通过集成多个先进组件来升级原始的Vision Transformer架构。在此基础上,引入了一种渐进式训练范式,该范式策略性地结合了两个核心机制:(1)分辨率课程学习,从固定分辨率预训练过渡到原生分辨率微调,从而利用ViT对变长序列的固有适应性;(2)通过批间图像-视频切换进行视觉模态适应,从而在计算效率和增强的时间推理之间取得平衡。同时,混合训练框架进一步将基于Sigmoid的对比损失与来自冻结教师模型的特征蒸馏相结合,从而加速早期收敛。最后,仅在公共数据集上训练,从0.3B到1B的多个模型规模上的大量实验证明了其有效性。
🔬 方法详解
问题定义:传统Vision Transformer通常将输入图像缩放到固定分辨率,忽略了自然图像分辨率的多样性,导致空间上下文信息的损失。现有的原生分辨率建模方法缺乏从视觉表示角度的系统分析,并且在处理多模态数据时效率较低。
核心思路:UniViTAR的核心思路是构建一个能够处理原生分辨率输入,并能有效适应多模态数据的统一视觉Transformer模型。通过渐进式训练和架构优化,使模型能够更好地学习不同分辨率和模态下的视觉表示。
技术框架:UniViTAR的整体框架包含以下几个主要部分:1) 架构升级:集成先进的Transformer组件,提升模型性能。2) 渐进式训练:包括分辨率课程学习和视觉模态适应两个阶段。分辨率课程学习从固定分辨率预训练过渡到原生分辨率微调,视觉模态适应通过图像-视频切换平衡计算效率和时间推理。3) 混合训练:结合Sigmoid对比损失和特征蒸馏,加速模型收敛。
关键创新:UniViTAR的关键创新在于其渐进式训练范式和混合训练框架。渐进式训练范式能够有效地利用ViT对变长序列的适应性,从而更好地处理原生分辨率输入。混合训练框架则能够加速模型收敛,提高训练效率。
关键设计:在分辨率课程学习中,模型首先在固定分辨率图像上进行预训练,然后逐步过渡到原生分辨率图像上进行微调。在视觉模态适应中,模型通过在图像和视频数据之间切换来学习多模态表示。混合训练框架使用Sigmoid对比损失来学习视觉特征,并使用来自冻结教师模型的特征蒸馏来加速模型收敛。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
UniViTAR在多个模型规模(0.3B到1B)上进行了实验,结果表明其在各种视觉任务上均表现出良好的性能。具体性能数据和对比基线未在摘要中给出,属于未知信息。但摘要强调了其在公共数据集上训练的有效性。
🎯 应用场景
UniViTAR具有广泛的应用前景,包括图像分类、目标检测、视频理解、多模态学习等。其原生分辨率建模能力使其能够更好地处理高分辨率图像和视频,从而提高视觉任务的性能。此外,其多模态适应能力使其能够应用于需要同时处理图像和视频数据的场景,例如智能监控、自动驾驶等。
📄 摘要(原文)
Conventional Vision Transformer simplifies visual modeling by standardizing input resolutions, often disregarding the variability of natural visual data and compromising spatial-contextual fidelity. While preliminary explorations have superficially investigated native resolution modeling, existing approaches still lack systematic analysis from a visual representation perspective. To bridge this gap, we introduce UniViTAR, a family of homogeneous vision foundation models tailored for unified visual modality and native resolution scenario in the era of multimodal. Our framework first conducts architectural upgrades to the vanilla paradigm by integrating multiple advanced components. Building upon these improvements, a progressive training paradigm is introduced, which strategically combines two core mechanisms: (1) resolution curriculum learning, transitioning from fixed-resolution pretraining to native resolution tuning, thereby leveraging ViT's inherent adaptability to variable-length sequences, and (2) visual modality adaptation via inter-batch image-video switching, which balances computational efficiency with enhanced temporal reasoning. In parallel, a hybrid training framework further synergizes sigmoid-based contrastive loss with feature distillation from a frozen teacher model, thereby accelerating early-stage convergence. Finally, trained exclusively on public datasets, externsive experiments across multiple model scales from 0.3B to 1B demonstrate its effectiveness.