DynAlign: Unsupervised Dynamic Taxonomy Alignment for Cross-Domain Segmentation

📄 arXiv: 2501.16410v1 📥 PDF

作者: Han Sun, Rui Gong, Ismail Nejjar, Olga Fink

分类: cs.CV

发布日期: 2025-01-27


💡 一句话要点

DynAlign:一种用于跨域分割的无监督动态分类对齐方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无监督领域自适应 语义分割 动态分类对齐 基础模型 知识融合

📋 核心要点

  1. 现有UDA方法忽略了源域和目标域之间标签级别的差异,限制了模型在新类别识别上的能力。
  2. DynAlign框架结合UDA和基础模型,利用先验知识对齐类别,并动态融合知识以适应场景。
  3. 在GTA到Mapillary Vistas和GTA到IDD数据集上的实验表明,该方法显著优于现有方法。

📝 摘要(中文)

现有的语义分割无监督领域自适应(UDA)方法通常假设源域和目标域具有相同的类别标签。这种假设忽略了标签级别的领域差异,而这在实际场景中很常见,从而限制了它们在不需要大量手动标注的情况下识别更细粒度或新类别的能力。一个有希望的方向是最近在基础模型方面的进展,由于其丰富的先验知识,这些模型表现出强大的泛化能力。然而,这些模型通常难以处理特定领域的细微差别和代表性不足的细粒度类别。为了解决这些挑战,我们引入了DynAlign,一个集成了UDA和基础模型的框架,以弥合图像级别和标签级别的领域差异。我们的方法利用先验语义知识将源类别与目标类别对齐,这些目标类别可以是新的、更细粒度的或名称不同的(例如,vehicle到{car, truck, bus})。然后,利用基础模型进行精确的分割和类别重新分配。为了进一步提高准确性,我们提出了一种知识融合方法,该方法可以动态适应不同的场景上下文。DynAlign在新的目标标签空间中生成准确的预测,而无需任何手动标注,从而可以通过模型重新训练或直接推理无缝适应新的分类法。

🔬 方法详解

问题定义:现有的无监督领域自适应语义分割方法通常假设源域和目标域具有相同的类别标签集合。然而,在实际应用中,目标域可能包含源域中不存在的新类别、更细粒度的类别划分,或者使用不同的命名方式。这种标签级别的领域差异严重限制了现有方法的性能,使其难以直接应用于真实场景。

核心思路:DynAlign的核心思路是利用基础模型强大的语义理解能力和泛化能力,以及无监督领域自适应技术,来弥合源域和目标域在图像级别和标签级别上的差异。通过将源域的类别与目标域中语义相关的类别进行对齐,并利用基础模型进行精确分割和类别重新分配,从而实现对目标域的准确分割。

技术框架:DynAlign框架主要包含以下几个模块:1) 类别对齐模块:利用先验语义知识,例如WordNet或预训练的词向量,将源域的类别与目标域中语义相关的类别进行对齐。2) 基础模型分割模块:使用预训练的基础模型(例如CLIP)对图像进行分割,并生成初始的分割结果。3) 类别重分配模块:根据类别对齐的结果,将基础模型分割结果中的类别重新分配到目标域的类别空间中。4) 知识融合模块:动态地融合来自不同来源的知识,例如源域的知识、基础模型的知识和目标域的上下文信息,以提高分割的准确性。

关键创新:DynAlign的关键创新在于它能够同时解决图像级别和标签级别的领域差异。通过类别对齐模块,DynAlign能够将源域的知识迁移到目标域,即使目标域包含新的类别或更细粒度的类别划分。此外,DynAlign还提出了一种动态知识融合方法,能够根据不同的场景上下文自适应地调整不同知识来源的权重,从而提高分割的准确性。

关键设计:类别对齐模块可以使用WordNet的语义相似度计算,或者使用预训练的词向量(例如Word2Vec或GloVe)计算类别名称之间的相似度。知识融合模块可以使用注意力机制,根据不同知识来源的置信度动态地调整其权重。损失函数可以包括分割损失、类别对齐损失和知识融合损失,以共同优化模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DynAlign在GTA到Mapillary Vistas和GTA到IDD数据集上取得了显著的性能提升。例如,在GTA到Mapillary Vistas数据集上,DynAlign的mIoU比现有最佳方法提高了超过5个百分点。这些结果表明,DynAlign能够有效地解决标签级别的领域差异,并提高语义分割的准确性。

🎯 应用场景

DynAlign在自动驾驶、遥感图像分析、医学图像分析等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用DynAlign将从模拟环境中训练的模型迁移到真实道路场景中,即使真实场景中包含新的车辆类型或交通标志。在医学图像分析中,可以利用DynAlign将从一种医学图像模态训练的模型迁移到另一种模态,即使不同模态下组织器官的命名方式不同。

📄 摘要(原文)

Current unsupervised domain adaptation (UDA) methods for semantic segmentation typically assume identical class labels between the source and target domains. This assumption ignores the label-level domain gap, which is common in real-world scenarios, thus limiting their ability to identify finer-grained or novel categories without requiring extensive manual annotation. A promising direction to address this limitation lies in recent advancements in foundation models, which exhibit strong generalization abilities due to their rich prior knowledge. However, these models often struggle with domain-specific nuances and underrepresented fine-grained categories. To address these challenges, we introduce DynAlign, a framework that integrates UDA with foundation models to bridge both the image-level and label-level domain gaps. Our approach leverages prior semantic knowledge to align source categories with target categories that can be novel, more fine-grained, or named differently (e.g., vehicle to {car, truck, bus}). Foundation models are then employed for precise segmentation and category reassignment. To further enhance accuracy, we propose a knowledge fusion approach that dynamically adapts to varying scene contexts. DynAlign generates accurate predictions in a new target label space without requiring any manual annotations, allowing seamless adaptation to new taxonomies through either model retraining or direct inference. Experiments on the street scene semantic segmentation benchmarks GTA to Mapillary Vistas and GTA to IDD validate the effectiveness of our approach, achieving a significant improvement over existing methods. Our code will be publicly available.