Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey

📄 arXiv: 2505.02448v1 📥 PDF

作者: Chaohua Li, Enhao Zhang, Chuanxing Geng, Songcan Chen

分类: cs.CV

发布日期: 2025-05-05


💡 一句话要点

基于CLIP模型的OOD检测综述:提出图像-文本双模态视角下的新分类框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 离群点检测 CLIP模型 视觉-语言模型 跨模态学习 图像文本 综述 OOD检测

📋 核心要点

  1. 现有OOD检测方法主要依赖单模态ID图像,忽略了CLIP等VLM的跨模态特性,限制了其性能。
  2. 论文提出新的OOD检测分类框架,从图像和文本双模态视角出发,更贴合CLIP模型的特性。
  3. 论文总结了CLIP-like OOD检测的开放问题,并展望了跨领域集成等未来研究方向。

📝 摘要(中文)

离群点检测(OOD)是现实应用中的关键任务,它训练模型来识别在测试阶段与在分布(ID)数据存在分布差异的样本。人工智能的最新进展,特别是像CLIP这样的视觉-语言模型(VLMs),通过将传统的单模态图像检测器转变为多模态图像-文本检测器,彻底改变了OOD检测。这种转变激发了广泛的研究;然而,现有的分类方案(例如,少样本或零样本类型)仍然仅仅依赖于ID图像的可用性,坚持单模态范式。为了更好地与CLIP的跨模态性质保持一致,我们提出了一个基于图像和文本模态的新分类框架。具体来说,我们根据OOD数据的视觉和文本信息在图像+文本模态中如何被利用来对现有方法进行分类,并进一步将其分为四组:可见或不可见的OOD图像(即,离群值),以及已知或未知的OOD文本(即,可学习的向量或类名),跨越两种训练策略(即,免训练或需要训练)。更重要的是,我们讨论了类CLIP OOD检测中存在的开放问题,并强调了未来研究的有希望的方向,包括跨领域集成、实际应用和理论理解。

🔬 方法详解

问题定义:论文旨在解决现有OOD检测方法在利用CLIP等视觉-语言模型时,未能充分考虑其跨模态特性,导致分类框架不够完善的问题。现有方法主要依赖单模态图像信息,无法有效利用文本信息进行OOD检测。

核心思路:论文的核心思路是提出一个基于图像和文本双模态的OOD检测分类框架。该框架从OOD数据的图像和文本信息如何被利用的角度出发,将现有方法进行分类,从而更好地与CLIP等VLM的跨模态特性对齐。

技术框架:该综述论文并没有提出新的技术框架,而是对现有方法进行分类。其分类框架主要包含以下几个方面:OOD图像的可见性(Seen/Unseen)、OOD文本的已知性(Known/Unknown)以及训练策略(Train-free/Training-required)。基于这些维度,将现有方法划分为不同的类别。

关键创新:论文的关键创新在于提出了一个全新的OOD检测分类框架,该框架从图像和文本双模态的角度出发,更全面地考虑了CLIP等VLM的特性。与传统的单模态分类框架相比,该框架能够更好地反映现有方法的本质区别,并为未来的研究提供更清晰的指导。

关键设计:该论文主要是一个综述,没有涉及具体的参数设置、损失函数或网络结构的设计。其关键在于对现有方法的分类标准的设计,即从OOD图像的可见性、OOD文本的已知性以及训练策略三个维度进行分类。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文是一篇综述,没有具体的实验结果。其亮点在于提出了一个新的OOD检测分类框架,为该领域的研究提供了新的视角和方向。该框架能够帮助研究人员更好地理解现有方法的优缺点,并为未来的研究提供更清晰的指导。

🎯 应用场景

该研究对OOD检测在安全关键领域的应用具有重要意义,例如自动驾驶、医疗诊断等。通过更准确地识别异常样本,可以提高系统的可靠性和安全性。此外,该研究还可以促进跨领域知识迁移和模型泛化能力提升。

📄 摘要(原文)

Out-of-distribution detection (OOD) is a pivotal task for real-world applications that trains models to identify samples that are distributionally different from the in-distribution (ID) data during testing. Recent advances in AI, particularly Vision-Language Models (VLMs) like CLIP, have revolutionized OOD detection by shifting from traditional unimodal image detectors to multimodal image-text detectors. This shift has inspired extensive research; however, existing categorization schemes (e.g., few- or zero-shot types) still rely solely on the availability of ID images, adhering to a unimodal paradigm. To better align with CLIP's cross-modal nature, we propose a new categorization framework rooted in both image and text modalities. Specifically, we categorize existing methods based on how visual and textual information of OOD data is utilized within image + text modalities, and further divide them into four groups: OOD Images (i.e., outliers) Seen or Unseen, and OOD Texts (i.e., learnable vectors or class names) Known or Unknown, across two training strategies (i.e., train-free or training-required). More importantly, we discuss open problems in CLIP-like OOD detection and highlight promising directions for future research, including cross-domain integration, practical applications, and theoretical understanding.