Mixed-Query Transformer: A Unified Image Segmentation Architecture

📄 arXiv: 2404.04469v1 📥 PDF

作者: Pei Wang, Zhaowei Cai, Hao Yang, Ashwin Swaminathan, R. Manmatha, Stefano Soatto

分类: cs.CV

发布日期: 2024-04-06


💡 一句话要点

提出混合查询变换器以解决多任务多数据集图像分割问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像分割 多任务学习 深度学习 计算机视觉 混合查询 模型泛化 数据增强

📋 核心要点

  1. 现有的统一图像分割模型在多任务和多数据集处理上存在权重使用不当的问题,导致性能受限。
  2. 本文提出的MQ-Former通过混合查询策略,使用单一权重集实现多任务和多数据集的图像分割,避免了传统方法的局限性。
  3. 实验结果显示,MQ-Former在多个分割任务上表现优异,尤其在开放集分割任务中性能提升显著,超过现有技术7个百分点。

📝 摘要(中文)

现有的统一图像分割模型通常在多个任务中使用统一架构,但针对每个数据集使用单独的权重,或在多个数据集中应用单一权重但仅限于单一任务。本文提出了混合查询变换器(MQ-Former),这是一个针对多任务和多数据集图像分割的统一架构,使用单一权重集。为此,我们提出了一种混合查询策略,能够有效且动态地适应不同类型的对象,而无需启发式设计。此外,统一架构还允许我们使用合成掩码和标题进行数据增强,以进一步提高模型的泛化能力。实验表明,MQ-Former不仅能够有效处理多个分割数据集和任务,并且在开放集分割任务上表现更佳,相较于现有技术在开放词汇SeginW基准上提升超过7个百分点。

🔬 方法详解

问题定义:本文旨在解决现有统一图像分割模型在多任务和多数据集处理中的权重使用不当问题,导致模型性能受限。

核心思路:MQ-Former通过引入混合查询策略,能够动态适应不同类型的对象,使用单一权重集进行多任务和多数据集的图像分割,避免了启发式设计的复杂性。

技术框架:MQ-Former的整体架构包括输入层、混合查询模块、特征提取网络和输出层。混合查询模块负责根据输入数据的特性生成适应性查询,特征提取网络则用于提取图像特征,最后输出层进行分割结果的生成。

关键创新:MQ-Former的最大创新在于其混合查询策略,能够有效处理多种类型的对象,且无需针对每个数据集设计不同的权重,显著提高了模型的灵活性和泛化能力。

关键设计:在模型设计中,采用了数据增强技术,通过合成掩码和标题来提升模型的泛化能力。此外,损失函数的设计也经过优化,以适应多任务学习的需求。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,MQ-Former在多个分割数据集上表现优异,尤其在开放集分割任务中,相较于现有技术在开放词汇SeginW基准上提升超过7个百分点,显示出其强大的泛化能力和适应性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、医学影像分析和智能监控等场景,能够有效提升图像分割任务的准确性和效率。未来,MQ-Former有望在更广泛的计算机视觉任务中发挥作用,推动多任务学习的发展。

📄 摘要(原文)

Existing unified image segmentation models either employ a unified architecture across multiple tasks but use separate weights tailored to each dataset, or apply a single set of weights to multiple datasets but are limited to a single task. In this paper, we introduce the Mixed-Query Transformer (MQ-Former), a unified architecture for multi-task and multi-dataset image segmentation using a single set of weights. To enable this, we propose a mixed query strategy, which can effectively and dynamically accommodate different types of objects without heuristic designs. In addition, the unified architecture allows us to use data augmentation with synthetic masks and captions to further improve model generalization. Experiments demonstrate that MQ-Former can not only effectively handle multiple segmentation datasets and tasks compared to specialized state-of-the-art models with competitive performance, but also generalize better to open-set segmentation tasks, evidenced by over 7 points higher performance than the prior art on the open-vocabulary SeginW benchmark.