PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

作者: Niccolò Cavagnero, Narges Norouzi, Gijs Dubbelman, Daan de Geus

分类: cs.CV

发布日期: 2026-03-26

备注: 8 pages, ECV 2026, CVPR Workshop

🔗 代码/项目: GITHUB

💡 一句话要点

提出PMT：一种基于冻结视觉编码器的图像和视频分割Plain Mask Transformer

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像分割 视频分割 Transformer 视觉基础模型 冻结编码器 自监督学习 深度学习

📋 核心要点

现有基于VFM的图像和视频分割模型需要微调编码器，牺牲了VFM在大型部署中多任务共享的优势。
提出Plain Mask Decoder (PMD)，一个快速的Transformer解码器，作用于冻结的VFM特征之上，实现高效分割。
PMT在图像分割上匹配了当前最优的冻结编码器方法，速度提升3倍；在视频分割上性能媲美全微调方法，速度提升8倍。

📝 摘要（中文）

本文提出Plain Mask Decoder (PMD)，一个快速的基于Transformer的分割解码器，它在冻结的视觉基础模型(VFM)特征之上运行。由此产生的模型Plain Mask Transformer (PMT)，保留了仅编码器设计的架构简单性和低延迟，同时保持编码器表示不变且可共享。该设计无缝地应用于图像和视频分割，继承了仅编码器框架的通用性。在标准图像分割基准测试中，PMT与冻结编码器的最先进水平相匹配，同时运行速度提高了约3倍。对于视频分割，它的性能甚至与完全微调的方法相当，同时比最先进的冻结编码器模型快8倍。

🔬 方法详解

问题定义：论文旨在解决图像和视频分割任务中，如何利用大规模预训练的视觉基础模型（VFM），在保持编码器冻结的情况下，实现高性能和高效率的分割。现有基于VFM的分割方法，如EoMT和VidEoMT，虽然取得了不错的精度和速度，但需要对编码器进行微调，这破坏了VFM在多任务场景下的共享能力，限制了其在大规模部署中的应用。

核心思路：论文的核心思路是设计一个轻量级的解码器，Plain Mask Decoder (PMD)，直接作用于冻结的VFM编码器提取的特征之上，避免对编码器进行微调。通过这种方式，既能利用VFM强大的特征表示能力，又能保持编码器的通用性和可共享性，同时降低计算成本。

技术框架：PMT (Plain Mask Transformer) 整体架构包含一个冻结的VFM编码器和一个Plain Mask Decoder (PMD)。VFM编码器负责提取图像或视频帧的特征，PMD则基于这些特征生成分割掩码。PMD是一个基于Transformer的解码器，它接收编码器的输出特征作为输入，通过自注意力机制和交叉注意力机制，学习特征之间的关系，最终预测像素级别的分割结果。

关键创新：论文的关键创新在于提出了Plain Mask Decoder (PMD)，它能够在冻结VFM编码器的情况下，实现高性能的图像和视频分割。PMD的设计简洁高效，避免了对编码器的微调，从而保留了VFM的通用性和可共享性。此外，PMD能够同时处理图像和视频分割任务，体现了其良好的泛化能力。

关键设计：PMD采用标准的Transformer解码器结构，包括多头自注意力层、交叉注意力层和前馈神经网络。关键设计在于如何有效地利用VFM编码器提取的特征。具体来说，PMD将编码器的输出特征作为query，同时将编码器的输出特征本身作为key和value，进行交叉注意力计算。此外，论文可能还探索了不同的损失函数和训练策略，以优化PMD的性能。具体参数设置和网络结构细节需要在论文原文中查找。

🖼️ 关键图片

📊 实验亮点

PMT在图像分割任务中，在保持冻结编码器的情况下，与当前最优方法性能相当，速度提升约3倍。在视频分割任务中，PMT性能媲美全微调方法，速度比当前最优的冻结编码器模型快8倍。这些结果表明，PMT在保证性能的同时，显著提高了分割效率，具有很强的实用价值。

🎯 应用场景

该研究成果可广泛应用于计算机视觉领域，例如自动驾驶、医学图像分析、视频监控等。通过利用预训练的视觉基础模型，可以降低模型训练成本，提高分割精度和效率。未来，该方法有望应用于更多视觉任务，例如目标检测、图像生成等，推动人工智能技术的发展。

📄 摘要（原文）

Vision Foundation Models (VFMs) pre-trained at scale enable a single frozen encoder to serve multiple downstream tasks simultaneously. Recent VFM-based encoder-only models for image and video segmentation, such as EoMT and VidEoMT, achieve competitive accuracy with remarkably low latency, yet they require finetuning the encoder, sacrificing the multi-task encoder sharing that makes VFMs practically attractive for large-scale deployment. To reconcile encoder-only simplicity and speed with frozen VFM features, we propose the Plain Mask Decoder (PMD), a fast Transformer-based segmentation decoder that operates on top of frozen VFM features. The resulting model, the Plain Mask Transformer (PMT), preserves the architectural simplicity and low latency of encoder-only designs while keeping the encoder representation unchanged and shareable. The design seamlessly applies to both image and video segmentation, inheriting the generality of the encoder-only framework. On standard image segmentation benchmarks, PMT matches the frozen-encoder state of the art while running up to ~3x faster. For video segmentation, it even performs on par with fully finetuned methods, while being up to 8x faster than state-of-the-art frozen-encoder models. Code: https://github.com/tue-mps/pmt.

PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理