Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation

作者: Jiho Choi, Seonho Lee, Minhyun Lee, Seungho Lee, Hyunjung Shim

分类: cs.CV

发布日期: 2025-01-16 (更新: 2025-08-08)

备注: CVPR 2025

💡 一句话要点

PartCATSeg：通过代价聚合实现开放词汇部件分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 开放词汇部件分割 图像文本对应 代价聚合 组合损失 结构指导 细粒度分割 视觉理解

📋 核心要点

开放词汇部件分割的关键挑战在于如何准确对齐部件级别的图像和文本信息，现有方法难以建立这种细粒度的对应关系。
PartCATSeg通过解耦的代价聚合策略，分别处理对象和部件级别的代价，并引入组合损失来学习部件与对象之间的关系。
实验结果表明，PartCATSeg在多个数据集上显著优于现有方法，为开放词汇部件分割任务提供了新的基线。

📝 摘要（中文）

开放词汇部件分割(OVPS)是一个新兴领域，旨在识别未见类别中的细粒度部件。我们发现OVPS面临两个主要挑战：(1)部件级图像-文本对应关系的对齐困难，以及(2)缺乏对分割对象部件的结构理解。为了解决这些问题，我们提出了PartCATSeg，这是一个新颖的框架，集成了对象感知的部件级代价聚合、组合损失和来自DINO的结构指导。我们的方法采用了一种解耦的代价聚合策略，分别处理对象和部件级代价，从而提高部件级分割的精度。我们还引入了一种组合损失，以更好地捕捉部件-对象关系，弥补了有限的部件标注。此外，来自DINO特征的结构指导改善了边界描绘和部件间理解。在Pascal-Part-116、ADE20K-Part-234和PartImageNet数据集上的大量实验表明，我们的方法显著优于最先进的方法，为对未见部件类别的鲁棒泛化设定了新的基线。

🔬 方法详解

问题定义：论文旨在解决开放词汇部件分割（OVPS）问题，即在没有见过部件类别的情况下，分割图像中的细粒度部件。现有方法难以建立准确的部件级图像-文本对应关系，并且缺乏对部件结构的理解，导致分割精度不高。

核心思路：论文的核心思路是通过对象感知的部件级代价聚合，结合组合损失和DINO的结构指导，来提升部件分割的精度和泛化能力。代价聚合用于对齐图像和文本特征，组合损失用于学习部件与对象之间的关系，DINO的结构指导用于改善边界描绘和部件间理解。

技术框架：PartCATSeg框架包含以下主要模块：(1)图像和文本特征提取模块，用于提取图像和文本的视觉和语义特征；(2)解耦的代价聚合模块，分别计算对象和部件级别的代价，并进行聚合；(3)组合损失计算模块，用于学习部件与对象之间的关系；(4)DINO结构指导模块，利用DINO特征提供结构信息，改善分割效果；(5)分割预测模块，基于聚合后的代价和结构信息，预测部件分割结果。

关键创新：该论文的关键创新在于：(1)提出了解耦的代价聚合策略，能够更精确地对齐部件级别的图像和文本特征；(2)引入了组合损失，能够更好地捕捉部件与对象之间的关系，从而提高分割精度；(3)利用DINO特征提供结构指导，改善了边界描绘和部件间理解。与现有方法相比，PartCATSeg能够更有效地利用图像和文本信息，实现更准确的开放词汇部件分割。

关键设计：解耦代价聚合模块分别计算对象和部件级别的代价矩阵，然后通过加权平均的方式进行聚合。组合损失由部件损失和对象损失组成，部件损失用于约束部件分割的准确性，对象损失用于约束部件与对象之间的关系。DINO结构指导模块利用DINO特征的自注意力机制，提取图像的结构信息，并将其融入到分割预测中。具体的损失函数权重和网络结构参数等细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

PartCATSeg在Pascal-Part-116、ADE20K-Part-234和PartImageNet数据集上取得了显著的性能提升，超越了现有的state-of-the-art方法。具体而言，在Pascal-Part-116数据集上，PartCATSeg的mIoU指标提升了X%，在ADE20K-Part-234数据集上提升了Y%，在PartImageNet数据集上提升了Z%（具体数值请查阅论文）。这些结果表明，PartCATSeg在开放词汇部件分割任务中具有很强的竞争力。

🎯 应用场景

该研究成果可应用于图像编辑、机器人视觉、智能监控等领域。例如，在图像编辑中，可以根据文本描述自动分割和编辑图像中的特定部件；在机器人视觉中，可以帮助机器人理解场景中的物体及其部件，从而实现更智能的交互；在智能监控中，可以用于识别和分析监控视频中的异常行为。

📄 摘要（原文）

Open-Vocabulary Part Segmentation (OVPS) is an emerging field for recognizing fine-grained parts in unseen categories. We identify two primary challenges in OVPS: (1) the difficulty in aligning part-level image-text correspondence, and (2) the lack of structural understanding in segmenting object parts. To address these issues, we propose PartCATSeg, a novel framework that integrates object-aware part-level cost aggregation, compositional loss, and structural guidance from DINO. Our approach employs a disentangled cost aggregation strategy that handles object and part-level costs separately, enhancing the precision of part-level segmentation. We also introduce a compositional loss to better capture part-object relationships, compensating for the limited part annotations. Additionally, structural guidance from DINO features improves boundary delineation and inter-part understanding. Extensive experiments on Pascal-Part-116, ADE20K-Part-234, and PartImageNet datasets demonstrate that our method significantly outperforms state-of-the-art approaches, setting a new baseline for robust generalization to unseen part categories.

Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理