T-QPM: Enabling Temporal Out-Of-Distribution Detection and Domain Generalization for Vision-Language Models in Open-World
作者: Aditi Naiknaware, Salimeh Sekeh
分类: cs.CV, cs.LG
发布日期: 2026-03-19
💡 一句话要点
提出T-QPM框架,增强视觉-语言模型在动态开放世界中的OOD检测和领域泛化能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 分布外检测 视觉-语言模型 时间漂移 领域泛化 跨模态学习
📋 核心要点
- 现有视觉-语言模型在开放世界中进行OOD检测时,依赖固定融合规则,难以适应时间漂移和协变量偏移。
- 论文提出时间四模式匹配(T-QPM)框架,通过跨模态一致性模式和学习融合权重来提升OOD检测的鲁棒性和时间一致性。
- 实验表明,T-QPM在时间分割基准上显著优于静态基线,为动态环境下的多模态OOD检测提供有效方案。
📝 摘要(中文)
在开放世界学习中,分布外(OOD)检测仍然是一个关键挑战,模型必须适应不断演变的数据分布。虽然像CLIP这样的视觉-语言模型(VLMS)可以通过双模式匹配(DPM)实现多模态OOD检测,但现有方法通常存在两个主要缺点:(1)它们依赖于固定的融合规则,并假设静态环境,在时间漂移下失效;(2)它们缺乏对协变量偏移输入的鲁棒性。在本文中,我们提出了一个新颖的两步框架,以增强动态设置中的OOD检测和协变量分布偏移鲁棒性。我们将双模式机制扩展到时间四模式匹配(T-QPM)。首先,通过将OOD图像与文本描述配对,我们引入了ID和OOD信号之间的跨模态一致性模式,通过联合图像-文本推理来细化决策边界。其次,我们通过学习轻量级融合权重来优化语义匹配和视觉典型性的组合,从而解决时间分布偏移问题。为了确保稳定性,我们实施了基于平均阈值置信度(ATC)的显式正则化,防止性能随着分布的演变而下降。在时间分割基准上的实验表明,我们的方法显著优于静态基线,为非平稳环境中的多模态OOD检测提供了一个鲁棒的、时间一致的框架。
🔬 方法详解
问题定义:现有视觉-语言模型(如CLIP)在开放世界中进行分布外(OOD)检测时,面临两个主要问题。一是依赖固定的融合规则,无法适应数据分布随时间变化的场景(时间漂移)。二是缺乏对协变量偏移(covariate shift)的鲁棒性,即输入数据的统计特性发生变化时,模型性能会显著下降。这些问题限制了模型在实际动态环境中的应用。
核心思路:论文的核心思路是通过引入时间信息和跨模态一致性来增强OOD检测的鲁棒性。具体来说,首先将传统的双模式匹配扩展到时间四模式匹配(T-QPM),利用OOD图像和文本描述之间的关联,学习ID和OOD信号之间的跨模态一致性模式,从而更准确地划分决策边界。其次,通过学习轻量级的融合权重,动态地调整语义匹配和视觉典型性的重要性,以适应时间分布的变化。
技术框架:T-QPM框架主要包含两个步骤。第一步是跨模态一致性学习,通过将OOD图像与文本描述配对,构建图像-文本对,并利用视觉-语言模型学习ID和OOD信号之间的关联。第二步是时间自适应融合,通过学习轻量级的融合权重,动态地组合语义匹配和视觉典型性,以适应时间分布的变化。为了防止模型在时间漂移下性能下降,还引入了基于平均阈值置信度(ATC)的正则化项。
关键创新:论文的关键创新在于提出了时间四模式匹配(T-QPM)框架,该框架能够有效地利用时间信息和跨模态一致性来增强OOD检测的鲁棒性。与现有方法相比,T-QPM能够动态地调整融合权重,适应时间分布的变化,并且通过ATC正则化来保证模型的稳定性。此外,T-QPM通过引入图像-文本对,利用跨模态信息来细化决策边界,从而提高OOD检测的准确性。
关键设计:T-QPM框架的关键设计包括:(1) 使用CLIP等视觉-语言模型作为基础模型,提取图像和文本的特征;(2) 设计跨模态一致性损失函数,鼓励模型学习ID和OOD信号之间的关联;(3) 学习轻量级的融合权重,动态地组合语义匹配和视觉典型性;(4) 引入基于平均阈值置信度(ATC)的正则化项,防止模型在时间漂移下性能下降。具体的损失函数和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,T-QPM框架在时间分割基准上显著优于静态基线。具体来说,T-QPM在OOD检测任务上的性能提升了XX%,并且在协变量偏移下的鲁棒性也得到了显著提高。这些结果表明,T-QPM框架能够有效地利用时间信息和跨模态一致性来增强OOD检测的性能。
🎯 应用场景
该研究成果可应用于各种需要处理动态、开放世界数据的场景,例如自动驾驶、智能监控、医疗诊断等。在这些场景中,模型需要能够识别未知的、分布外的样本,并适应数据分布随时间的变化。T-QPM框架可以提高模型在这些场景中的鲁棒性和可靠性,从而提升系统的整体性能。
📄 摘要(原文)
Out-of-distribution (OOD) detection remains a critical challenge in open-world learning, where models must adapt to evolving data distributions. While recent vision-language models (VLMS) like CLIP enable multimodal OOD detection through Dual-Pattern Matching (DPM), existing methods typically suffer from two major shortcomings: (1) They rely on fixed fusion rules and assume static environments, failing under temporal drift; and (2) they lack robustness against covariate shifted inputs. In this paper, we propose a novel two-step framework to enhance OOD detection and covariate distribution shift robustness in dynamic settings. We extend the dual-pattern regime into Temporal Quadruple-Pattern Matching (T-QPM). First, by pairing OOD images with text descriptions, we introduce cross-modal consistency patterns between ID and OOD signals, refining the decision boundary through joint image-text reasoning. Second, we address temporal distribution shifts by learning lightweight fusion weights to optimally combine semantic matching and visual typicality. To ensure stability, we enforce explicit regularization based on Average Thresholded Confidence (ATC), preventing performance degradation as distributions evolve. Experiments on temporally partitioned benchmarks demonstrate that our approach significantly outperforms static baselines, offering a robust, temporally-consistent framework for multimodal OOD detection in non-stationary environments.