Synthesizing Near-Boundary OOD Samples for Out-of-Distribution Detection
作者: Jinglun Li, Kaixun Jiang, Zhaoyu Chen, Bo Lin, Yao Tang, Weifeng Ge, Wenqiang Zhang
分类: cs.CV
发布日期: 2025-07-14 (更新: 2025-08-21)
备注: Accepted by ICCV 2025 (Highlight)
🔗 代码/项目: GITHUB
💡 一句话要点
SynOOD:利用生成模型合成近边界OOD样本,提升OOD检测性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: OOD检测 分布外检测 生成模型 扩散模型 多模态学习 CLIP模型 近边界样本
📋 核心要点
- 现有OOD检测方法难以区分图像特征空间中接近InD数据的OOD样本,导致误分类。
- SynOOD利用基础模型生成具有挑战性的合成OOD数据,微调CLIP模型,增强InD和OOD样本的边界区分能力。
- SynOOD在ImageNet基准测试上取得了SOTA性能,且参数和运行时的增加非常小,超越了现有方法。
📝 摘要(中文)
预训练的视觉-语言模型在检测分布外(OOD)样本方面表现出了卓越的能力。然而,一些具有挑战性的OOD样本,它们在图像特征空间中接近于分布内(InD)数据,仍然可能导致错误分类。扩散模型和多模态大型语言模型(MLLM)等基础模型的出现为解决这个问题提供了潜在的方案。在这项工作中,我们提出了一种新颖的方法SynOOD,它利用基础模型生成合成的、具有挑战性的OOD数据,用于微调CLIP模型,从而增强InD和OOD样本之间的边界级区分。我们的方法使用迭代的图像修复过程,该过程由来自MLLM的上下文提示引导,以产生细微的、与边界对齐的OOD样本。这些样本通过基于能量分数等OOD分数的梯度进行噪声调整来细化,从而有效地从InD/OOD边界进行采样。利用这些精心合成的图像,我们微调CLIP图像编码器和从文本编码器导出的负标签特征,以加强近边界OOD样本与一组负标签之间的联系。最后,SynOOD在大型ImageNet基准测试上实现了最先进的性能,参数和运行时的增加最小。我们的方法显著超越了现有方法,代码可在https://github.com/Jarvisgivemeasuit/SynOOD 获取。
🔬 方法详解
问题定义:论文旨在解决OOD检测中,模型难以区分与InD数据在特征空间上非常接近的OOD样本的问题。现有方法无法有效处理这些“近边界”OOD样本,导致较高的误判率。
核心思路:核心思路是利用生成模型(扩散模型和MLLM)合成高质量的、位于InD和OOD数据边界附近的OOD样本,并使用这些合成数据来微调CLIP模型,从而提高模型对近边界OOD样本的区分能力。这样做的目的是让模型更敏感地捕捉InD和OOD之间的细微差异。
技术框架:SynOOD的整体框架包含以下几个主要阶段:1) 利用MLLM生成上下文提示;2) 使用扩散模型进行迭代图像修复,生成初始OOD样本;3) 基于OOD分数(如能量分数)的梯度调整噪声,优化OOD样本,使其更接近InD/OOD边界;4) 使用合成的OOD样本微调CLIP图像编码器和负标签特征。
关键创新:最重要的创新点在于利用MLLM的上下文信息指导扩散模型生成更具语义一致性的OOD样本,并通过梯度调整噪声的方式,精确控制OOD样本在特征空间中的位置,使其位于InD/OOD边界附近。这与以往直接生成OOD样本的方法不同,SynOOD更加关注边界区域的样本生成。
关键设计:关键设计包括:1) 使用MLLM生成详细的上下文描述,引导扩散模型生成高质量的OOD样本;2) 采用基于能量分数的梯度调整策略,精确控制OOD样本的噪声水平,使其位于InD/OOD边界附近;3) 微调CLIP模型的图像编码器和负标签特征,增强模型对OOD样本的识别能力。
🖼️ 关键图片
📊 实验亮点
SynOOD在ImageNet基准测试上取得了显著的性能提升,超越了现有的OOD检测方法。实验结果表明,SynOOD能够有效提高模型对近边界OOD样本的区分能力,降低误判率。此外,SynOOD在参数量和运行时开销方面增加很小,具有良好的实用性。
🎯 应用场景
该研究成果可广泛应用于安全攸关的计算机视觉任务中,例如自动驾驶、医疗图像诊断、工业质检等。通过提高OOD检测的准确性,可以有效降低系统在未知环境下的误判风险,提升系统的安全性和可靠性。未来,该方法可以进一步扩展到其他模态数据和更复杂的OOD检测场景。
📄 摘要(原文)
Pre-trained vision-language models have exhibited remarkable abilities in detecting out-of-distribution (OOD) samples. However, some challenging OOD samples, which lie close to in-distribution (InD) data in image feature space, can still lead to misclassification. The emergence of foundation models like diffusion models and multimodal large language models (MLLMs) offers a potential solution to this issue. In this work, we propose SynOOD, a novel approach that harnesses foundation models to generate synthetic, challenging OOD data for fine-tuning CLIP models, thereby enhancing boundary-level discrimination between InD and OOD samples. Our method uses an iterative in-painting process guided by contextual prompts from MLLMs to produce nuanced, boundary-aligned OOD samples. These samples are refined through noise adjustments based on gradients from OOD scores like the energy score, effectively sampling from the InD/OOD boundary. With these carefully synthesized images, we fine-tune the CLIP image encoder and negative label features derived from the text encoder to strengthen connections between near-boundary OOD samples and a set of negative labels. Finally, SynOOD achieves state-of-the-art performance on the large-scale ImageNet benchmark, with minimal increases in parameters and runtime. Our approach significantly surpasses existing methods, and the code is available at https://github.com/Jarvisgivemeasuit/SynOOD.