Lost in Translation? Vocabulary Alignment for Source-Free Adaptation in Open-Vocabulary Semantic Segmentation
作者: Silvio Mazzucco, Carl Persson, Mattia Segu, Pier Luigi Dovesi, Federico Tombari, Luc Van Gool, Matteo Poggi
分类: cs.CV
发布日期: 2025-09-18 (更新: 2025-09-29)
备注: BMVC 2025 - Project Page: https://thegoodailab.org/blog/vocalign - Code: https://github.com/Sisso16/VocAlign
💡 一句话要点
VocAlign:面向开放词汇语义分割的无源域自适应词汇对齐方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 无源域自适应 开放词汇语义分割 视觉语言模型 词汇对齐 伪标签
📋 核心要点
- 现有开放词汇语义分割方法在无源域自适应中面临挑战,难以有效利用视觉语言模型。
- VocAlign通过词汇对齐策略增强伪标签生成,并采用师生范式进行模型自适应。
- 实验表明,VocAlign在CityScapes数据集上取得了显著的mIoU提升,并在零样本分割任务中表现出色。
📝 摘要(中文)
本文提出了一种名为VocAlign的全新无源域自适应框架,专门为开放词汇语义分割中的视觉语言模型(VLM)设计。我们的方法采用了一种师生范式,并增强了一种词汇对齐策略,通过整合额外的类别概念来改进伪标签的生成。为了确保效率,我们使用低秩自适应(LoRA)来微调模型,在保留其原始能力的同时,最大限度地减少计算开销。此外,我们为学生模型提出了一种Top-K类别选择机制,该机制显著降低了内存需求,同时进一步提高了自适应性能。我们的方法在CityScapes数据集上实现了6.11 mIoU的显著提升,并在零样本分割基准测试中表现出卓越的性能,为开放词汇环境中的无源域自适应设定了新的标准。
🔬 方法详解
问题定义:论文旨在解决开放词汇语义分割中,无源域自适应的问题。现有方法难以有效利用视觉语言模型,并且在目标域上缺乏标注数据,导致模型泛化能力不足。痛点在于如何利用源域知识,在目标域上生成高质量的伪标签,并高效地进行模型自适应。
核心思路:论文的核心思路是利用词汇对齐策略来增强伪标签的生成。通过引入额外的类别概念,使得模型能够更好地理解目标域的语义信息。同时,采用师生范式,利用教师模型生成伪标签,指导学生模型进行学习,从而实现模型的自适应。
技术框架:VocAlign框架主要包含以下几个模块:1) 教师模型:利用源域数据训练好的视觉语言模型,用于生成目标域的伪标签。2) 学生模型:需要进行自适应的模型,通过学习教师模型生成的伪标签来提升性能。3) 词汇对齐模块:用于将源域和目标域的词汇进行对齐,从而引入额外的类别概念。4) Top-K类别选择模块:用于减少学生模型的内存需求,并进一步提高自适应性能。整体流程是:首先,利用教师模型和词汇对齐模块生成目标域的伪标签;然后,利用Top-K类别选择模块选择最相关的类别;最后,利用学生模型学习这些伪标签,完成自适应。
关键创新:论文最重要的技术创新点在于提出了词汇对齐策略,该策略能够有效地将源域和目标域的词汇进行对齐,从而引入额外的类别概念,提升伪标签的质量。此外,Top-K类别选择机制也能够显著降低内存需求,并进一步提高自适应性能。与现有方法的本质区别在于,VocAlign更加注重利用视觉语言模型的语义信息,并将其融入到伪标签的生成过程中。
关键设计:论文的关键设计包括:1) 词汇对齐策略的具体实现方式,例如如何选择合适的词汇嵌入,以及如何进行对齐操作。2) Top-K类别选择机制的参数设置,例如K值的选择,以及如何评估类别的相关性。3) 损失函数的设计,例如如何平衡不同类别的损失,以及如何利用伪标签的置信度信息。
📊 实验亮点
VocAlign在CityScapes数据集上实现了6.11 mIoU的显著提升,证明了其在无源域自适应方面的有效性。此外,该方法在零样本分割基准测试中也表现出卓越的性能,超越了现有的方法,为开放词汇环境下的语义分割任务设定了新的标准。Top-K类别选择机制有效降低了内存需求,使得该方法更易于部署和应用。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、遥感图像分析等领域。通过无源域自适应,可以降低模型在不同场景下的部署成本,提高模型的泛化能力和鲁棒性。未来,该方法有望扩展到其他视觉任务,例如目标检测、图像分割等,为人工智能应用提供更强大的技术支持。
📄 摘要(原文)
We introduce VocAlign, a novel source-free domain adaptation framework specifically designed for VLMs in open-vocabulary semantic segmentation. Our method adopts a student-teacher paradigm enhanced with a vocabulary alignment strategy, which improves pseudo-label generation by incorporating additional class concepts. To ensure efficiency, we use Low-Rank Adaptation (LoRA) to fine-tune the model, preserving its original capabilities while minimizing computational overhead. In addition, we propose a Top-K class selection mechanism for the student model, which significantly reduces memory requirements while further improving adaptation performance. Our approach achieves a notable 6.11 mIoU improvement on the CityScapes dataset and demonstrates superior performance on zero-shot segmentation benchmarks, setting a new standard for source-free adaptation in the open-vocabulary setting.