Lost in Translation? Vocabulary Alignment for Source-Free Adaptation in Open-Vocabulary Semantic Segmentation

作者: Silvio Mazzucco, Carl Persson, Mattia Segu, Pier Luigi Dovesi, Federico Tombari, Luc Van Gool, Matteo Poggi

分类: cs.CV

发布日期: 2025-09-18 (更新: 2025-09-29)

备注: BMVC 2025 - Project Page: https://thegoodailab.org/blog/vocalign - Code: https://github.com/Sisso16/VocAlign

💡 一句话要点

VocAlign：面向开放词汇语义分割的无源域自适应词汇对齐方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 无源域自适应 开放词汇语义分割 视觉语言模型 词汇对齐 伪标签

📋 核心要点

现有开放词汇语义分割方法在无源域自适应中面临挑战，难以有效利用视觉语言模型。
VocAlign通过词汇对齐策略增强伪标签生成，并采用师生范式进行模型自适应。
实验表明，VocAlign在CityScapes数据集上取得了显著的mIoU提升，并在零样本分割任务中表现出色。

📝 摘要（中文）

本文提出了一种名为VocAlign的全新无源域自适应框架，专门为开放词汇语义分割中的视觉语言模型（VLM）设计。我们的方法采用了一种师生范式，并增强了一种词汇对齐策略，通过整合额外的类别概念来改进伪标签的生成。为了确保效率，我们使用低秩自适应（LoRA）来微调模型，在保留其原始能力的同时，最大限度地减少计算开销。此外，我们为学生模型提出了一种Top-K类别选择机制，该机制显著降低了内存需求，同时进一步提高了自适应性能。我们的方法在CityScapes数据集上实现了6.11 mIoU的显著提升，并在零样本分割基准测试中表现出卓越的性能，为开放词汇环境中的无源域自适应设定了新的标准。

🔬 方法详解

问题定义：论文旨在解决开放词汇语义分割中，无源域自适应的问题。现有方法难以有效利用视觉语言模型，并且在目标域上缺乏标注数据，导致模型泛化能力不足。痛点在于如何利用源域知识，在目标域上生成高质量的伪标签，并高效地进行模型自适应。

核心思路：论文的核心思路是利用词汇对齐策略来增强伪标签的生成。通过引入额外的类别概念，使得模型能够更好地理解目标域的语义信息。同时，采用师生范式，利用教师模型生成伪标签，指导学生模型进行学习，从而实现模型的自适应。

技术框架：VocAlign框架主要包含以下几个模块：1) 教师模型：利用源域数据训练好的视觉语言模型，用于生成目标域的伪标签。2) 学生模型：需要进行自适应的模型，通过学习教师模型生成的伪标签来提升性能。3) 词汇对齐模块：用于将源域和目标域的词汇进行对齐，从而引入额外的类别概念。4) Top-K类别选择模块：用于减少学生模型的内存需求，并进一步提高自适应性能。整体流程是：首先，利用教师模型和词汇对齐模块生成目标域的伪标签；然后，利用Top-K类别选择模块选择最相关的类别；最后，利用学生模型学习这些伪标签，完成自适应。

关键创新：论文最重要的技术创新点在于提出了词汇对齐策略，该策略能够有效地将源域和目标域的词汇进行对齐，从而引入额外的类别概念，提升伪标签的质量。此外，Top-K类别选择机制也能够显著降低内存需求，并进一步提高自适应性能。与现有方法的本质区别在于，VocAlign更加注重利用视觉语言模型的语义信息，并将其融入到伪标签的生成过程中。

关键设计：论文的关键设计包括：1) 词汇对齐策略的具体实现方式，例如如何选择合适的词汇嵌入，以及如何进行对齐操作。2) Top-K类别选择机制的参数设置，例如K值的选择，以及如何评估类别的相关性。3) 损失函数的设计，例如如何平衡不同类别的损失，以及如何利用伪标签的置信度信息。

📊 实验亮点

VocAlign在CityScapes数据集上实现了6.11 mIoU的显著提升，证明了其在无源域自适应方面的有效性。此外，该方法在零样本分割基准测试中也表现出卓越的性能，超越了现有的方法，为开放词汇环境下的语义分割任务设定了新的标准。Top-K类别选择机制有效降低了内存需求，使得该方法更易于部署和应用。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、遥感图像分析等领域。通过无源域自适应，可以降低模型在不同场景下的部署成本，提高模型的泛化能力和鲁棒性。未来，该方法有望扩展到其他视觉任务，例如目标检测、图像分割等，为人工智能应用提供更强大的技术支持。

📄 摘要（原文）

We introduce VocAlign, a novel source-free domain adaptation framework specifically designed for VLMs in open-vocabulary semantic segmentation. Our method adopts a student-teacher paradigm enhanced with a vocabulary alignment strategy, which improves pseudo-label generation by incorporating additional class concepts. To ensure efficiency, we use Low-Rank Adaptation (LoRA) to fine-tune the model, preserving its original capabilities while minimizing computational overhead. In addition, we propose a Top-K class selection mechanism for the student model, which significantly reduces memory requirements while further improving adaptation performance. Our approach achieves a notable 6.11 mIoU improvement on the CityScapes dataset and demonstrates superior performance on zero-shot segmentation benchmarks, setting a new standard for source-free adaptation in the open-vocabulary setting.

Lost in Translation? Vocabulary Alignment for Source-Free Adaptation in Open-Vocabulary Semantic Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册