Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token

作者: Anqi Zhang, Xiaokang Ji, Guangyu Gao, Jianbo Jiao, Chi Harold Liu, Yunchao Wei

分类: cs.CV

发布日期: 2026-03-19

备注: Paper is accepted by CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出SELF1E，仅用单个分割token实现多模态大语言模型(MLLM)的无解码器图像分割。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 图像分割 无解码器分割 残差填充 像素反重排

📋 核心要点

现有基于MLLM的分割方法依赖专门的掩码解码器或多个辅助token，增加了复杂性。
SELF1E通过保留高分辨率特征、残差填充和像素反重排操作，提升特征精度和分辨率。
实验表明，SELF1E在多个分割任务上表现出与专用解码器方法相当的性能，验证了其有效性。

📝 摘要（中文）

本文旨在探索如何仅使用单个分割嵌入(SELF1E)从多模态大语言模型(MLLM)本身解锁分割能力，从而无需外部解码器，并达到具有竞争力的结果。该方法针对MLLM中像素重排图像特征的分辨率降低这一根本限制。首先，保留原始未压缩分辨率的图像特征，并用从MLLM处理的压缩特征中提取的残差特征填充，从而提高特征精度。其次，分别对经过和未经过LLM处理的图像特征进行像素反重排操作，以释放压缩特征的细节，并放大未压缩分辨率下的残差特征，从而进一步提高重填充特征的分辨率。此外，重新设计了具有双重感知路径（即图像到图像和图像到分割）的注意力掩码，从而实现像素和分割token之间丰富的特征交互。在多个分割任务上的综合实验验证了SELF1E实现了与基于专用掩码解码器的方法具有竞争力的性能，证明了MLLM中无解码器分割的可行性。

🔬 方法详解

问题定义：现有基于多模态大语言模型（MLLM）的图像分割方法，通常需要额外的掩码解码器来解析分割结果，或者需要引入多个辅助token来提升分割性能。这些方法增加了模型的复杂性，限制了MLLM本身进行分割的能力。因此，如何充分利用MLLM自身的能力，实现无需额外解码器的图像分割，是一个亟待解决的问题。

核心思路：SELF1E的核心思路是直接利用MLLM本身进行分割，而无需额外的掩码解码器。为了解决MLLM中像素重排操作导致的分辨率降低问题，该方法通过保留原始高分辨率特征，并利用从MLLM处理后的低分辨率特征中提取的残差信息进行填充，从而提升特征的精度和分辨率。同时，通过像素反重排操作，进一步增强特征的细节信息。

技术框架：SELF1E的整体框架包括以下几个主要步骤：1) 保留原始未压缩分辨率的图像特征；2) 利用MLLM处理压缩后的图像特征，并提取残差特征；3) 将残差特征填充到原始高分辨率特征中，提升特征精度；4) 对经过和未经过LLM处理的图像特征进行像素反重排操作，增强特征细节；5) 使用重新设计的注意力掩码，实现像素和分割token之间的特征交互。

关键创新：SELF1E最重要的创新点在于，它实现了无需额外掩码解码器的图像分割，直接利用MLLM本身进行分割。通过保留高分辨率特征、残差填充和像素反重排操作，有效地解决了MLLM中分辨率降低的问题，提升了分割性能。此外，双重感知路径的注意力掩码设计，增强了像素和分割token之间的特征交互。

关键设计：SELF1E的关键设计包括：1) 保留原始分辨率的图像特征，避免信息损失；2) 利用残差特征进行填充，提升特征精度；3) 像素反重排操作，增强特征细节；4) 双重感知路径的注意力掩码，实现像素和分割token之间的有效交互。具体的参数设置和网络结构细节，例如残差填充的比例、像素反重排的尺度、注意力掩码的权重等，需要在实验中进行调整和优化。

🖼️ 关键图片

📊 实验亮点

SELF1E在多个分割任务上取得了与基于专用掩码解码器的方法具有竞争力的性能。实验结果表明，SELF1E在无需额外解码器的情况下，能够有效地进行图像分割，验证了其有效性和可行性。具体的性能数据和对比基线可以在论文的实验部分找到。

🎯 应用场景

SELF1E的潜在应用领域包括自动驾驶、医学图像分析、遥感图像处理等。该方法可以降低分割模型的复杂性，提高分割效率，并为MLLM在图像分割领域的应用提供新的思路。未来，可以将SELF1E与其他技术相结合，例如弱监督学习、半监督学习等，进一步提升分割性能。

📄 摘要（原文）

Recent segmentation methods leveraging Multi-modal Large Language Models (MLLMs) have shown reliable object-level segmentation and enhanced spatial perception. However, almost all previous methods predominantly rely on specialist mask decoders to interpret masks from generated segmentation-related embeddings and visual features, or incorporate multiple additional tokens to assist. This paper aims to investigate whether and how we can unlock segmentation from MLLM itSELF with 1 segmentation Embedding (SELF1E) while achieving competitive results, which eliminates the need for external decoders. To this end, our approach targets the fundamental limitation of resolution reduction in pixel-shuffled image features from MLLMs. First, we retain image features at their original uncompressed resolution, and refill them with residual features extracted from MLLM-processed compressed features, thereby improving feature precision. Subsequently, we integrate pixel-unshuffle operations on image features with and without LLM processing, respectively, to unleash the details of compressed features and amplify the residual features under uncompressed resolution, which further enhances the resolution of refilled features. Moreover, we redesign the attention mask with dual perception pathways, i.e., image-to-image and image-to-segmentation, enabling rich feature interaction between pixels and the segmentation token. Comprehensive experiments across multiple segmentation tasks validate that SELF1E achieves performance competitive with specialist mask decoder-based methods, demonstrating the feasibility of decoder-free segmentation in MLLMs. Project page: https://github.com/ANDYZAQ/SELF1E.

Rethinking MLLM Itself as a Segmenter with a Single Segmentation Token

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理