PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

📄 arXiv: 2603.25398v1 📥 PDF

作者: Niccolò Cavagnero, Narges Norouzi, Gijs Dubbelman, Daan de Geus

分类: cs.CV

发布日期: 2026-03-26

备注: 8 pages, ECV 2026, CVPR Workshop

🔗 代码/项目: GITHUB


💡 一句话要点

提出PMT:一种基于冻结视觉编码器的图像和视频分割Plain Mask Transformer

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像分割 视频分割 Transformer 视觉基础模型 冻结编码器 自监督学习 深度学习

📋 核心要点

  1. 现有基于VFM的图像和视频分割模型需要微调编码器,牺牲了VFM在大型部署中多任务共享的优势。
  2. 提出Plain Mask Decoder (PMD),一个快速的Transformer解码器,作用于冻结的VFM特征之上,实现高效分割。
  3. PMT在图像分割上匹配了当前最优的冻结编码器方法,速度提升3倍;在视频分割上性能媲美全微调方法,速度提升8倍。

📝 摘要(中文)

本文提出Plain Mask Decoder (PMD),一个快速的基于Transformer的分割解码器,它在冻结的视觉基础模型(VFM)特征之上运行。由此产生的模型Plain Mask Transformer (PMT),保留了仅编码器设计的架构简单性和低延迟,同时保持编码器表示不变且可共享。该设计无缝地应用于图像和视频分割,继承了仅编码器框架的通用性。在标准图像分割基准测试中,PMT与冻结编码器的最先进水平相匹配,同时运行速度提高了约3倍。对于视频分割,它的性能甚至与完全微调的方法相当,同时比最先进的冻结编码器模型快8倍。

🔬 方法详解

问题定义:论文旨在解决图像和视频分割任务中,如何利用大规模预训练的视觉基础模型(VFM),在保持编码器冻结的情况下,实现高性能和高效率的分割。现有基于VFM的分割方法,如EoMT和VidEoMT,虽然取得了不错的精度和速度,但需要对编码器进行微调,这破坏了VFM在多任务场景下的共享能力,限制了其在大规模部署中的应用。

核心思路:论文的核心思路是设计一个轻量级的解码器,Plain Mask Decoder (PMD),直接作用于冻结的VFM编码器提取的特征之上,避免对编码器进行微调。通过这种方式,既能利用VFM强大的特征表示能力,又能保持编码器的通用性和可共享性,同时降低计算成本。

技术框架:PMT (Plain Mask Transformer) 整体架构包含一个冻结的VFM编码器和一个Plain Mask Decoder (PMD)。VFM编码器负责提取图像或视频帧的特征,PMD则基于这些特征生成分割掩码。PMD是一个基于Transformer的解码器,它接收编码器的输出特征作为输入,通过自注意力机制和交叉注意力机制,学习特征之间的关系,最终预测像素级别的分割结果。

关键创新:论文的关键创新在于提出了Plain Mask Decoder (PMD),它能够在冻结VFM编码器的情况下,实现高性能的图像和视频分割。PMD的设计简洁高效,避免了对编码器的微调,从而保留了VFM的通用性和可共享性。此外,PMD能够同时处理图像和视频分割任务,体现了其良好的泛化能力。

关键设计:PMD采用标准的Transformer解码器结构,包括多头自注意力层、交叉注意力层和前馈神经网络。关键设计在于如何有效地利用VFM编码器提取的特征。具体来说,PMD将编码器的输出特征作为query,同时将编码器的输出特征本身作为key和value,进行交叉注意力计算。此外,论文可能还探索了不同的损失函数和训练策略,以优化PMD的性能。具体参数设置和网络结构细节需要在论文原文中查找。

🖼️ 关键图片

fig_0

📊 实验亮点

PMT在图像分割任务中,在保持冻结编码器的情况下,与当前最优方法性能相当,速度提升约3倍。在视频分割任务中,PMT性能媲美全微调方法,速度比当前最优的冻结编码器模型快8倍。这些结果表明,PMT在保证性能的同时,显著提高了分割效率,具有很强的实用价值。

🎯 应用场景

该研究成果可广泛应用于计算机视觉领域,例如自动驾驶、医学图像分析、视频监控等。通过利用预训练的视觉基础模型,可以降低模型训练成本,提高分割精度和效率。未来,该方法有望应用于更多视觉任务,例如目标检测、图像生成等,推动人工智能技术的发展。

📄 摘要(原文)

Vision Foundation Models (VFMs) pre-trained at scale enable a single frozen encoder to serve multiple downstream tasks simultaneously. Recent VFM-based encoder-only models for image and video segmentation, such as EoMT and VidEoMT, achieve competitive accuracy with remarkably low latency, yet they require finetuning the encoder, sacrificing the multi-task encoder sharing that makes VFMs practically attractive for large-scale deployment. To reconcile encoder-only simplicity and speed with frozen VFM features, we propose the Plain Mask Decoder (PMD), a fast Transformer-based segmentation decoder that operates on top of frozen VFM features. The resulting model, the Plain Mask Transformer (PMT), preserves the architectural simplicity and low latency of encoder-only designs while keeping the encoder representation unchanged and shareable. The design seamlessly applies to both image and video segmentation, inheriting the generality of the encoder-only framework. On standard image segmentation benchmarks, PMT matches the frozen-encoder state of the art while running up to ~3x faster. For video segmentation, it even performs on par with fully finetuned methods, while being up to 8x faster than state-of-the-art frozen-encoder models. Code: https://github.com/tue-mps/pmt.