Perception Encoder: The best visual embeddings are not at the output of the network

📄 arXiv: 2504.13181v2 📥 PDF

作者: Daniel Bolya, Po-Yao Huang, Peize Sun, Jang Hyun Cho, Andrea Madotto, Chen Wei, Tengyu Ma, Jiale Zhi, Jathushan Rajasegaran, Hanoona Rasheed, Junke Wang, Marco Monteiro, Hu Xu, Shiyu Dong, Nikhila Ravi, Daniel Li, Piotr Dollár, Christoph Feichtenhofer

分类: cs.CV

发布日期: 2025-04-17 (更新: 2025-04-28)

备注: Updated refs, fixed typos, and added new COCO SotA: 66.0 val mAP! Code, models, and data at https://github.com/facebookresearch/perception_models

🔗 代码/项目: GITHUB


💡 一句话要点

提出感知编码器(PE),通过视觉-语言对比学习获得图像和视频理解的最佳视觉嵌入。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉编码器 对比学习 视觉-语言学习 中间层嵌入 多模态学习 零样本学习 图像理解 视频理解

📋 核心要点

  1. 现有视觉编码器依赖于针对特定下游任务的预训练目标,缺乏通用性。
  2. 感知编码器(PE)通过对比视觉-语言学习,在网络中间层提取通用且强大的视觉嵌入。
  3. PE在零样本分类、问答和空间任务上均取得领先成果,并在COCO检测上达到新的SOTA。

📝 摘要(中文)

本文介绍了一种最先进的视觉编码器——感知编码器(PE),用于图像和视频理解,它通过简单的视觉-语言学习进行训练。 传统上,视觉编码器依赖于各种预训练目标,每个目标都针对特定的下游任务,如分类、字幕或定位。 令人惊讶的是,在扩展我们精心调整的图像预训练方案并使用我们强大的视频数据引擎进行改进后,我们发现仅对比视觉-语言训练就可以为所有这些下游任务生成强大的通用嵌入。 但需要注意的是:这些嵌入隐藏在网络的中间层中。 为了提取它们,我们引入了两种对齐方法:用于多模态语言建模的语言对齐和用于密集预测的空间对齐。 总之,我们的 PE 模型系列在各种任务上都取得了同类最佳的结果,包括 (1) 零样本图像和视频分类和检索,同时获得 86.6 的平均零样本 ImageNet 鲁棒性和 76.9 的零样本 Kinetics-400 视频分类; (2) 文档、图像和视频问答,使用 8B LLM 实现 94.6 DocVQA、80.9 InfographicVQA 和 82.7 PerceptionTest; (3) 空间任务,如检测、跟踪和深度估计,创造了 66.0 box mAP 的新的 COCO 最新技术水平。 为了促进进一步的研究,我们发布了我们的模型、代码和合成和人工注释视频的新数据集。

🔬 方法详解

问题定义:现有视觉编码器通常针对特定任务进行预训练,例如图像分类、目标检测或视频理解,导致模型缺乏通用性和泛化能力。此外,现有方法通常直接使用网络输出作为视觉嵌入,可能并非最优表示。

核心思路:本文的核心在于发现视觉编码器中间层包含更优的视觉嵌入,并通过对比视觉-语言学习来训练模型,使其能够提取这些隐藏的嵌入。通过语言对齐和空间对齐,将这些嵌入应用于多模态任务和密集预测任务。

技术框架:PE的整体框架包括:1) 视觉编码器:使用图像和视频数据进行对比视觉-语言预训练。2) 语言对齐模块:用于将视觉嵌入与语言模型对齐,从而支持多模态语言建模任务。3) 空间对齐模块:用于将视觉嵌入与空间信息对齐,从而支持密集预测任务,如目标检测和分割。

关键创新:最重要的创新点在于发现并利用视觉编码器中间层的视觉嵌入。传统方法通常使用最后一层的输出,而本文证明中间层的嵌入更具通用性和表达能力。此外,语言对齐和空间对齐模块也是关键创新,它们使得中间层嵌入能够有效应用于各种下游任务。

关键设计:在预训练阶段,使用了大规模图像和视频数据集进行对比学习,损失函数采用InfoNCE loss。语言对齐模块使用Transformer结构,将视觉嵌入和文本嵌入进行融合。空间对齐模块使用卷积神经网络,将视觉嵌入映射到像素级别的特征表示。具体的网络结构和超参数设置在论文附录中有详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

PE模型在多个任务上取得了显著的性能提升。在零样本ImageNet鲁棒性测试中达到86.6,零样本Kinetics-400视频分类达到76.9。在DocVQA、InfographicVQA和PerceptionTest上,分别达到94.6、80.9和82.7。在COCO目标检测任务上,取得了66.0 box mAP的SOTA结果,超越了现有方法。

🎯 应用场景

该研究成果可广泛应用于图像和视频理解领域,例如智能问答、图像检索、视频监控、自动驾驶等。通过提供更通用和强大的视觉嵌入,可以提升各种视觉任务的性能,并降低模型开发的成本。未来,该方法有望应用于更多领域,例如机器人导航、医疗影像分析等。

📄 摘要(原文)

We introduce Perception Encoder (PE), a state-of-the-art vision encoder for image and video understanding trained via simple vision-language learning. Traditionally, vision encoders have relied on a variety of pretraining objectives, each tailored to specific downstream tasks such as classification, captioning, or localization. Surprisingly, after scaling our carefully tuned image pretraining recipe and refining with our robust video data engine, we find that contrastive vision-language training alone can produce strong, general embeddings for all of these downstream tasks. There is only one caveat: these embeddings are hidden within the intermediate layers of the network. To draw them out, we introduce two alignment methods: language alignment for multimodal language modeling, and spatial alignment for dense prediction. Together, our PE family of models achieves best-in-class results on a wide variety of tasks, including (1) zero-shot image and video classification and retrieval, simultaneously obtaining 86.6 average zero-shot ImageNet robustness and 76.9 zero-shot Kinetics-400 video classification; (2) document, image, and video Q&A, enabling 94.6 DocVQA, 80.9 InfographicVQA, and 82.7 PerceptionTest with an 8B LLM; and (3) spatial tasks such as detection, tracking, and depth estimation, setting a new COCO state-of-the-art of 66.0 box mAP. To foster further research, we release our models, code, and novel dataset of synthetically and human-annotated videos: https://github.com/facebookresearch/perception_models