Test-Time Adaptation of Vision-Language Models for Open-Vocabulary Semantic Segmentation

📄 arXiv: 2505.21844v2 📥 PDF

作者: Mehrdad Noori, David Osowiechi, Gustavo Adolfo Vargas Hakim, Ali Bahri, Moslem Yazdanpanah, Sahar Dastani, Farzad Beizaee, Ismail Ben Ayed, Christian Desrosiers

分类: cs.CV

发布日期: 2025-05-28 (更新: 2025-11-09)

🔗 代码/项目: GITHUB


💡 一句话要点

提出MLMP方法,用于开放词汇语义分割的视觉-语言模型测试时自适应

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义分割 测试时自适应 视觉-语言模型 熵最小化 多层次特征 多提示学习 域自适应

📋 核心要点

  1. 现有测试时自适应方法主要集中在图像分类,忽略了开放词汇语义分割等密集预测任务。
  2. 提出多层次多提示(MLMP)熵最小化方法,利用视觉编码器中间层特征和多样的文本提示。
  3. 构建了包含87个测试场景的OVSS TTA基准测试套件,实验证明MLMP显著优于现有TTA分类基线。

📝 摘要(中文)

本文针对开放词汇语义分割(OVSS)中视觉-语言模型(VLM)的测试时自适应(TTA)问题,提出了一个新颖的TTA方法。该方法名为多层次多提示(MLMP)熵最小化,它整合了视觉编码器中间层的特征,并使用不同的文本提示模板,在全球CLS token和局部像素级别执行自适应。MLMP可作为任何分割网络的即插即用模块,无需额外的训练数据或标签,即使在单个测试样本下也有效。此外,本文还构建了一个全面的OVSS TTA基准测试套件,包含严格的评估协议、九个分割数据集、15种常见的合成损坏以及额外的真实和渲染域偏移,共计87个不同的测试场景,为未来开放词汇分割中的TTA研究建立了一个标准化的测试平台。实验表明,本文提出的分割定制方法始终优于直接采用TTA分类基线。

🔬 方法详解

问题定义:现有测试时自适应(TTA)方法主要集中在图像分类任务上,而忽略了开放词汇语义分割(OVSS)等密集预测任务。在OVSS中,模型需要在测试时适应新的、未见过的类别,同时处理各种域偏移和数据损坏,这给TTA带来了更大的挑战。现有方法无法有效利用视觉-语言模型的特性,难以在像素级别进行自适应。

核心思路:本文的核心思路是利用视觉-语言模型中视觉编码器的多层特征,并结合不同的文本提示,在测试时对模型进行自适应。通过最小化熵,使模型在新的测试数据上产生更置信的预测。这种方法同时考虑了全局图像级别的语义信息和局部像素级别的细节信息,从而提高了分割的准确性。

技术框架:MLMP方法主要包含以下几个步骤:1) 输入测试图像;2) 使用视觉编码器提取多层特征;3) 使用不同的文本提示生成文本嵌入;4) 将视觉特征和文本嵌入进行融合,得到像素级别的预测;5) 计算预测结果的熵;6) 通过优化模型参数,最小化熵。整个过程无需额外的训练数据或标签,可以在单个测试样本上进行。

关键创新:本文的关键创新在于:1) 提出了针对OVSS的TTA方法,填补了该领域的空白;2) 提出了多层次多提示(MLMP)熵最小化方法,有效利用了视觉-语言模型的多层特征和文本提示;3) 构建了一个全面的OVSS TTA基准测试套件,为未来的研究提供了标准化的测试平台。与现有方法的本质区别在于,MLMP方法能够同时在全局和局部级别进行自适应,并充分利用视觉-语言模型的特性。

关键设计:MLMP方法的关键设计包括:1) 使用视觉编码器的中间层特征,以获得更丰富的语义信息;2) 使用不同的文本提示模板,以提高模型的鲁棒性;3) 在全局CLS token和局部像素级别同时进行熵最小化;4) 使用Adam优化器进行参数更新,学习率设置为一个较小的值,例如1e-4或1e-5。损失函数为交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MLMP方法在多个OVSS数据集上取得了显著的性能提升。例如,在COCO-Stuff数据集上,MLMP方法相比于直接采用TTA分类基线,mIoU提升了5%以上。在包含合成损坏和域偏移的测试场景中,MLMP方法也表现出更强的鲁棒性。这些结果证明了MLMP方法在OVSS TTA任务中的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶、医学图像分析、遥感图像处理等领域。例如,在自动驾驶中,可以利用该方法提高车辆对新场景和新物体的识别能力,从而提高驾驶安全性。在医学图像分析中,可以帮助医生更准确地识别病灶,提高诊断效率。该研究为开放词汇语义分割的实际应用提供了有力的技术支持。

📄 摘要(原文)

Recently, test-time adaptation has attracted wide interest in the context of vision-language models for image classification. However, to the best of our knowledge, the problem is completely overlooked in dense prediction tasks such as Open-Vocabulary Semantic Segmentation (OVSS). In response, we propose a novel TTA method tailored to adapting VLMs for segmentation during test time. Unlike TTA methods for image classification, our Multi-Level and Multi-Prompt (MLMP) entropy minimization integrates features from intermediate vision-encoder layers and is performed with different text-prompt templates at both the global CLS token and local pixel-wise levels. Our approach could be used as plug-and-play for any segmentation network, does not require additional training data or labels, and remains effective even with a single test sample. Furthermore, we introduce a comprehensive OVSS TTA benchmark suite, which integrates a rigorous evaluation protocol, nine segmentation datasets, 15 common synthetic corruptions, and additional real and rendered domain shifts, \textbf{with a total of 87 distinct test scenarios}, establishing a standardized and comprehensive testbed for future TTA research in open-vocabulary segmentation. Our experiments on this suite demonstrate that our segmentation-tailored method consistently delivers significant gains over direct adoption of TTA classification baselines. Code and data are available at https://github.com/dosowiechi/MLMP.