PCA-Seg: Revisiting Cost Aggregation for Open-Vocabulary Semantic and Part Segmentation
作者: Jianjian Yin, Tao Chen, Yi Chen, Gensheng Pei, Xiangbo Shu, Yazhou Yao, Fumin Shen
分类: cs.CV
发布日期: 2026-03-18
备注: Accepted by CVPR2026
💡 一句话要点
提出PCA-Seg并行代价聚合方法,解决开放词汇语义和部件分割中的知识干扰问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇分割 语义分割 部件分割 视觉语言模型 代价聚合
📋 核心要点
- 现有开放词汇分割方法采用串行结构聚合代价体,导致类别语义和空间上下文的知识相互干扰。
- PCA-Seg提出并行代价聚合范式,设计专家驱动的感知学习模块,有效整合语义和上下文信息。
- 实验表明,PCA-Seg仅增加少量参数,即可在多个基准测试中达到最先进的开放词汇分割性能。
📝 摘要(中文)
近年来,视觉-语言模型(VLMs)在开放词汇语义和部件分割(OSPS)领域备受关注。然而,现有方法通过空间和类别聚合的串行结构从代价体中提取图像-文本对齐线索,导致类别级语义和空间上下文之间的知识干扰。因此,本文提出了一种简单而有效的并行代价聚合(PCA-Seg)范式来缓解上述挑战,使模型能够从代价体中捕获更丰富的视觉-语言对齐信息。具体而言,我们设计了一个专家驱动的感知学习(EPL)模块,该模块有效地整合了语义和上下文流。它包含一个多专家解析器,可以从多个角度提取互补特征。此外,设计了一个系数映射器,用于自适应地学习每个像素的特定权重,从而将互补知识集成到统一而鲁棒的特征嵌入中。此外,我们提出了一种特征正交解耦(FOD)策略,以减轻语义和上下文流之间的冗余,这使得EPL模块能够从正交化特征中学习不同的知识。在八个基准测试上的大量实验表明,PCA-Seg中的每个并行块仅增加0.35M参数,同时实现了最先进的OSPS性能。
🔬 方法详解
问题定义:开放词汇语义和部件分割(OSPS)旨在根据给定的文本描述分割图像。现有方法通常采用串行结构,先进行空间聚合,再进行类别聚合,从代价体中提取视觉-语言对齐信息。这种串行结构的缺点在于,空间上下文信息和类别语义信息在聚合过程中会相互干扰,导致模型无法充分利用代价体中蕴含的丰富信息。
核心思路:PCA-Seg的核心思路是采用并行代价聚合范式,即同时进行空间聚合和类别聚合,避免二者之间的信息干扰。通过并行处理,模型可以更有效地学习到图像和文本之间的对齐关系,从而提升分割性能。此外,论文还设计了专家驱动的感知学习(EPL)模块和特征正交解耦(FOD)策略,进一步增强模型的学习能力。
技术框架:PCA-Seg的整体框架包括以下几个主要模块:1) 视觉编码器和文本编码器,用于提取图像和文本的特征表示;2) 代价体构建模块,用于计算图像特征和文本特征之间的相似度,形成代价体;3) 并行代价聚合模块,包含EPL模块和FOD策略,用于从代价体中提取视觉-语言对齐信息;4) 分割头,用于根据提取的特征进行像素级别的分割预测。
关键创新:PCA-Seg的关键创新在于以下几点:1) 提出了并行代价聚合范式,有效缓解了串行聚合带来的知识干扰问题;2) 设计了专家驱动的感知学习(EPL)模块,通过多专家解析器和系数映射器,自适应地整合语义和上下文信息;3) 提出了特征正交解耦(FOD)策略,减少了语义和上下文流之间的冗余,提升了模型的学习效率。与现有方法相比,PCA-Seg能够更充分地利用代价体中的信息,从而提升分割性能。
关键设计:EPL模块中的多专家解析器采用多个卷积层和注意力机制,从不同角度提取特征。系数映射器使用一个小型神经网络,根据像素级别的特征自适应地学习权重。FOD策略通过计算语义和上下文特征之间的相关性矩阵,并使用正交化损失函数来减少二者之间的冗余。损失函数包括交叉熵损失和正交化损失,用于优化分割结果和特征表示。
🖼️ 关键图片
📊 实验亮点
PCA-Seg在八个基准测试上取得了最先进的性能,证明了其有效性。例如,在Pascal Context数据集上,PCA-Seg的mIoU指标超过了现有最佳方法,且仅增加了0.35M参数。实验结果表明,并行代价聚合范式和EPL模块能够显著提升开放词汇分割的性能。
🎯 应用场景
PCA-Seg在开放词汇语义和部件分割方面具有广泛的应用前景,例如智能图像编辑、机器人视觉、自动驾驶等领域。该方法可以帮助机器理解图像中的物体及其部件,并根据文本描述进行精确分割,从而实现更智能的人机交互和更高效的自动化任务。
📄 摘要(原文)
Recent advances in vision-language models (VLMs) have garnered substantial attention in open-vocabulary semantic and part segmentation (OSPS). However, existing methods extract image-text alignment cues from cost volumes through a serial structure of spatial and class aggregations, leading to knowledge interference between class-level semantics and spatial context. Therefore, this paper proposes a simple yet effective parallel cost aggregation (PCA-Seg) paradigm to alleviate the above challenge, enabling the model to capture richer vision-language alignment information from cost volumes. Specifically, we design an expert-driven perceptual learning (EPL) module that efficiently integrates semantic and contextual streams. It incorporates a multi-expert parser to extract complementary features from multiple perspectives. In addition, a coefficient mapper is designed to adaptively learn pixel-specific weights for each feature, enabling the integration of complementary knowledge into a unified and robust feature embedding. Furthermore, we propose a feature orthogonalization decoupling (FOD) strategy to mitigate redundancy between the semantic and contextual streams, which allows the EPL module to learn diverse knowledge from orthogonalized features. Extensive experiments on eight benchmarks show that each parallel block in PCA-Seg adds merely 0.35M parameters while achieving state-of-the-art OSPS performance.