Text4Seg: Reimagining Image Segmentation as Text Generation

📄 arXiv: 2410.09855v2 📥 PDF

作者: Mengcheng Lan, Chaofeng Chen, Yue Zhou, Jiaxing Xu, Yiping Ke, Xinjiang Wang, Litong Feng, Wayne Zhang

分类: cs.CV

发布日期: 2024-10-13 (更新: 2025-02-17)

备注: ICLR 2025. Project page: https://mc-lan.github.io/Text4Seg/


💡 一句话要点

Text4Seg:将图像分割重构为文本生成任务,简化分割流程。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像分割 文本生成 多模态大语言模型 语义描述符 行式游程编码

📋 核心要点

  1. 现有方法难以有效整合图像分割到多模态大语言模型中,面临着架构复杂和优化困难等挑战。
  2. Text4Seg将图像分割转化为文本生成,使用语义描述符将图像块映射到文本标签,实现统一表示。
  3. 实验表明,Text4Seg在多个视觉任务上取得了SOTA性能,并通过R-RLE显著提升了效率。

📝 摘要(中文)

多模态大型语言模型(MLLM)在视觉-语言任务中表现出卓越的能力;然而,将图像分割有效地集成到这些模型中仍然是一个重大的挑战。本文提出了Text4Seg,一种新颖的文本即掩码范式,将图像分割转化为文本生成问题,无需额外的解码器,并显著简化了分割过程。我们的关键创新是语义描述符,一种分割掩码的新文本表示,其中每个图像块被映射到其对应的文本标签。这种统一的表示允许无缝集成到MLLM的自回归训练流程中,从而更容易优化。我们证明了用16x16语义描述符表示图像可以产生有竞争力的分割性能。为了提高效率,我们引入了行式游程编码(R-RLE),它压缩了冗余的文本序列,在不影响性能的情况下,将语义描述符的长度减少了74%,并将推理速度提高了3倍。在各种视觉任务(如指代表达式分割和理解)上的大量实验表明,通过微调不同的MLLM骨干网络,Text4Seg在多个数据集上实现了最先进的性能。我们的方法为MLLM框架内以视觉为中心的任务提供了一种高效、可扩展的解决方案。

🔬 方法详解

问题定义:图像分割任务旨在为图像中的每个像素分配一个类别标签。现有方法,特别是那些尝试将图像分割集成到多模态大语言模型(MLLM)中的方法,通常需要额外的解码器或复杂的架构来处理分割掩码,这增加了模型的复杂性,并使得优化变得困难。这些方法难以充分利用MLLM强大的文本生成能力来解决分割问题。

核心思路:Text4Seg的核心思想是将图像分割问题重新定义为一个文本生成问题。通过将分割掩码表示为文本序列(语义描述符),可以直接利用MLLM的自回归文本生成能力来预测分割结果。这种方法避免了额外的解码器,简化了模型架构,并允许端到端的训练。

技术框架:Text4Seg的整体框架包括以下几个主要阶段:1) 图像编码:使用视觉编码器(例如,预训练的视觉Transformer)提取图像特征。2) 语义描述符生成:将图像划分为小的图像块(例如,16x16),并将每个图像块映射到其对应的文本标签(语义描述符)。3) 文本生成:将图像特征和语义描述符输入到MLLM中,MLLM自回归地生成文本序列,该序列表示分割掩码。4) 行式游程编码(R-RLE):为了压缩冗余的文本序列,提高效率,引入了R-RLE。

关键创新:Text4Seg最重要的技术创新点在于其“文本即掩码”的范式,即将图像分割问题转化为文本生成问题。与传统方法需要额外的解码器或复杂的架构不同,Text4Seg可以直接利用MLLM的文本生成能力来预测分割结果,从而简化了模型架构,并提高了效率。此外,语义描述符和R-RLE也是重要的创新点。

关键设计:语义描述符的关键设计在于如何将图像块映射到文本标签。论文中使用预定义的词汇表来表示不同的类别标签。图像块的大小设置为16x16,以在性能和效率之间取得平衡。R-RLE的关键设计在于如何有效地压缩冗余的文本序列。R-RLE按行扫描文本序列,并记录每个连续相同标签的长度,从而减少了文本序列的长度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Text4Seg在指代表达式分割和理解等任务上取得了SOTA性能。通过使用16x16语义描述符,Text4Seg能够实现具有竞争力的分割性能。引入的R-RLE将语义描述符的长度减少了74%,并将推理速度提高了3倍,而没有牺牲性能。这些实验结果表明,Text4Seg是一种高效、可扩展的图像分割解决方案。

🎯 应用场景

Text4Seg具有广泛的应用前景,包括但不限于:自动驾驶、医学图像分析、遥感图像处理、机器人视觉等领域。该方法可以用于目标检测、语义分割、实例分割等各种视觉任务。通过将图像分割转化为文本生成,Text4Seg为视觉任务提供了一种高效、可扩展的解决方案,有望推动多模态大语言模型在视觉领域的应用。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) have shown exceptional capabilities in vision-language tasks; however, effectively integrating image segmentation into these models remains a significant challenge. In this paper, we introduce Text4Seg, a novel text-as-mask paradigm that casts image segmentation as a text generation problem, eliminating the need for additional decoders and significantly simplifying the segmentation process. Our key innovation is semantic descriptors, a new textual representation of segmentation masks where each image patch is mapped to its corresponding text label. This unified representation allows seamless integration into the auto-regressive training pipeline of MLLMs for easier optimization. We demonstrate that representing an image with $16\times16$ semantic descriptors yields competitive segmentation performance. To enhance efficiency, we introduce the Row-wise Run-Length Encoding (R-RLE), which compresses redundant text sequences, reducing the length of semantic descriptors by 74% and accelerating inference by $3\times$, without compromising performance. Extensive experiments across various vision tasks, such as referring expression segmentation and comprehension, show that Text4Seg achieves state-of-the-art performance on multiple datasets by fine-tuning different MLLM backbones. Our approach provides an efficient, scalable solution for vision-centric tasks within the MLLM framework.