Decomposed Vision-Language Alignment for Fine-Grained Open-Vocabulary Segmentation

📄 arXiv: 2605.15942v1 📥 PDF

作者: Chenhao Wang, Yingrui Ji, Yu Meng, Yao Zhu

分类: cs.CV, cs.AI

发布日期: 2026-05-15


💡 一句话要点

提出解耦的视觉-语言对齐框架,用于细粒度开放词汇分割。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇分割 视觉-语言对齐 细粒度分割 跨模态学习 组合语义

📋 核心要点

  1. 现有开放词汇分割模型难以处理未见过的属性和类别组合,泛化能力受限。
  2. 将文本提示分解为概念和属性token,实现独立的跨模态交互,提升组合语义理解。
  3. 提出的方法可集成到现有分割架构,并在细粒度分割任务上显著提升泛化性能。

📝 摘要(中文)

开放词汇分割模型通常难以泛化到未见过的物体类别和属性组合,因为细粒度的描述通常被编码为整体句子,其中缠绕着多个语义单元。我们提出了一个解耦的视觉-语言对齐框架,该框架显式地将文本提示分解为一个概念token和多个属性token,从而为每个语义单元实现单独的跨模态交互。在特征层面,我们引入了一个特征门控交叉注意力模块,该模块生成特定于属性的门控图,以乘法方式融合信息,从而有效地执行组合语义。在评分层面,每个token的相似度在对数空间中聚合,产生稳定且可解释的组合匹配。该方法可以无缝集成到现有的基于Transformer的分割架构中,并显著提高在细粒度开放词汇分割基准测试中对未见过的属性-类别组合的泛化能力。

🔬 方法详解

问题定义:开放词汇分割旨在根据文本描述分割图像中的区域。现有方法通常将文本描述视为一个整体,难以处理细粒度的属性和类别组合,导致模型在未见过的组合上泛化能力差。痛点在于缺乏对文本描述中不同语义单元(如概念和属性)的显式建模和解耦。

核心思路:论文的核心思路是将文本提示分解为概念token和多个属性token,然后分别对每个token进行跨模态交互。通过解耦不同的语义单元,模型可以更好地理解和组合不同的属性和类别,从而提高泛化能力。这种解耦的思想借鉴了组合语义学的概念,旨在让模型能够像人类一样理解和组合不同的语义成分。

技术框架:整体框架包含以下几个主要模块:1) 文本提示分解模块,将文本提示分解为概念token和属性token;2) 特征提取模块,提取图像和文本的特征;3) 特征门控交叉注意力模块,用于融合图像和文本特征,并生成特定于属性的门控图;4) 分割模块,根据融合后的特征进行像素级别的分割;5) 评分模块,用于计算每个像素属于特定类别和属性的概率。

关键创新:最重要的技术创新点在于解耦的视觉-语言对齐框架和特征门控交叉注意力模块。解耦框架允许模型独立处理概念和属性,从而更好地理解组合语义。特征门控交叉注意力模块通过生成特定于属性的门控图,以乘法方式融合信息,有效地执行组合语义。与现有方法相比,该方法能够更精细地建模文本描述中的不同语义单元,并更好地利用这些信息进行分割。

关键设计:特征门控交叉注意力模块的关键设计在于门控图的生成方式和融合方式。门控图由属性token的特征和图像特征计算得到,用于控制图像特征中哪些部分与该属性相关。融合方式采用乘法,可以有效地过滤掉与该属性无关的信息。评分模块采用对数空间聚合,可以避免数值不稳定问题,并产生更稳定和可解释的组合匹配。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在细粒度开放词汇分割基准测试中显著提高了泛化能力。例如,在未见过的属性-类别组合上,该方法的性能优于现有方法多个百分点。具体而言,与基线方法相比,该方法在某些数据集上的性能提升超过10%。这些结果表明,该方法能够有效地处理细粒度的语义信息,并提高模型的泛化能力。

🎯 应用场景

该研究成果可应用于智能图像编辑、自动驾驶、机器人视觉等领域。例如,在智能图像编辑中,用户可以通过指定物体的属性和类别来精确地修改图像内容。在自动驾驶中,模型可以根据文本描述识别和分割道路上的各种物体,提高驾驶安全性。未来,该方法可以扩展到更复杂的场景和任务中,例如视频分割和三维重建。

📄 摘要(原文)

Open-vocabulary segmentation models often struggle to generalize to unseen combinations of object categories and attributes, because fine-grained descriptions are typically encoded as holistic sentences that entangle multiple semantic units. We propose a Decomposed Vision-Language Alignment framework that explicitly factorizes textual prompts into a concept token and multiple attribute tokens, enabling separate cross-modal interactions for each semantic unit. At the feature level, we introduce a Feature-Gated Cross-Attention module that generates attribute-specific gating maps to fuse information in a multiplicative manner, effectively enforcing compositional semantics. At the scoring level, per-token similarities are aggregated in log-space, producing a stable and interpretable compositional matching. The method can be seamlessly integrated into existing transformer-based segmentation architectures and significantly improves generalization to unseen attribute-category compositions in fine-grained open-vocabulary segmentation benchmarks.