Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey

作者: Chaohua Li, Enhao Zhang, Chuanxing Geng, Songcan Chen

分类: cs.CV

发布日期: 2025-05-05

💡 一句话要点

基于CLIP模型的OOD检测综述：提出图像-文本双模态视角下的新分类框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 离群点检测 CLIP模型 视觉-语言模型 跨模态学习 图像文本 综述 OOD检测

📋 核心要点

现有OOD检测方法主要依赖单模态ID图像，忽略了CLIP等VLM的跨模态特性，限制了其性能。
论文提出新的OOD检测分类框架，从图像和文本双模态视角出发，更贴合CLIP模型的特性。
论文总结了CLIP-like OOD检测的开放问题，并展望了跨领域集成等未来研究方向。

📝 摘要（中文）

离群点检测（OOD）是现实应用中的关键任务，它训练模型来识别在测试阶段与在分布（ID）数据存在分布差异的样本。人工智能的最新进展，特别是像CLIP这样的视觉-语言模型（VLMs），通过将传统的单模态图像检测器转变为多模态图像-文本检测器，彻底改变了OOD检测。这种转变激发了广泛的研究；然而，现有的分类方案（例如，少样本或零样本类型）仍然仅仅依赖于ID图像的可用性，坚持单模态范式。为了更好地与CLIP的跨模态性质保持一致，我们提出了一个基于图像和文本模态的新分类框架。具体来说，我们根据OOD数据的视觉和文本信息在图像+文本模态中如何被利用来对现有方法进行分类，并进一步将其分为四组：可见或不可见的OOD图像（即，离群值），以及已知或未知的OOD文本（即，可学习的向量或类名），跨越两种训练策略（即，免训练或需要训练）。更重要的是，我们讨论了类CLIP OOD检测中存在的开放问题，并强调了未来研究的有希望的方向，包括跨领域集成、实际应用和理论理解。

🔬 方法详解

问题定义：论文旨在解决现有OOD检测方法在利用CLIP等视觉-语言模型时，未能充分考虑其跨模态特性，导致分类框架不够完善的问题。现有方法主要依赖单模态图像信息，无法有效利用文本信息进行OOD检测。

核心思路：论文的核心思路是提出一个基于图像和文本双模态的OOD检测分类框架。该框架从OOD数据的图像和文本信息如何被利用的角度出发，将现有方法进行分类，从而更好地与CLIP等VLM的跨模态特性对齐。

技术框架：该综述论文并没有提出新的技术框架，而是对现有方法进行分类。其分类框架主要包含以下几个方面：OOD图像的可见性（Seen/Unseen）、OOD文本的已知性（Known/Unknown）以及训练策略（Train-free/Training-required）。基于这些维度，将现有方法划分为不同的类别。

关键创新：论文的关键创新在于提出了一个全新的OOD检测分类框架，该框架从图像和文本双模态的角度出发，更全面地考虑了CLIP等VLM的特性。与传统的单模态分类框架相比，该框架能够更好地反映现有方法的本质区别，并为未来的研究提供更清晰的指导。

关键设计：该论文主要是一个综述，没有涉及具体的参数设置、损失函数或网络结构的设计。其关键在于对现有方法的分类标准的设计，即从OOD图像的可见性、OOD文本的已知性以及训练策略三个维度进行分类。

🖼️ 关键图片

📊 实验亮点

该论文是一篇综述，没有具体的实验结果。其亮点在于提出了一个新的OOD检测分类框架，为该领域的研究提供了新的视角和方向。该框架能够帮助研究人员更好地理解现有方法的优缺点，并为未来的研究提供更清晰的指导。

🎯 应用场景

该研究对OOD检测在安全关键领域的应用具有重要意义，例如自动驾驶、医疗诊断等。通过更准确地识别异常样本，可以提高系统的可靠性和安全性。此外，该研究还可以促进跨领域知识迁移和模型泛化能力提升。

📄 摘要（原文）

Out-of-distribution detection (OOD) is a pivotal task for real-world applications that trains models to identify samples that are distributionally different from the in-distribution (ID) data during testing. Recent advances in AI, particularly Vision-Language Models (VLMs) like CLIP, have revolutionized OOD detection by shifting from traditional unimodal image detectors to multimodal image-text detectors. This shift has inspired extensive research; however, existing categorization schemes (e.g., few- or zero-shot types) still rely solely on the availability of ID images, adhering to a unimodal paradigm. To better align with CLIP's cross-modal nature, we propose a new categorization framework rooted in both image and text modalities. Specifically, we categorize existing methods based on how visual and textual information of OOD data is utilized within image + text modalities, and further divide them into four groups: OOD Images (i.e., outliers) Seen or Unseen, and OOD Texts (i.e., learnable vectors or class names) Known or Unknown, across two training strategies (i.e., train-free or training-required). More importantly, we discuss open problems in CLIP-like OOD detection and highlight promising directions for future research, including cross-domain integration, practical applications, and theoretical understanding.

Recent Advances in Out-of-Distribution Detection with CLIP-Like Models: A Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理