Synthesizing Near-Boundary OOD Samples for Out-of-Distribution Detection

作者: Jinglun Li, Kaixun Jiang, Zhaoyu Chen, Bo Lin, Yao Tang, Weifeng Ge, Wenqiang Zhang

分类: cs.CV

发布日期: 2025-07-14 (更新: 2025-08-21)

备注: Accepted by ICCV 2025 (Highlight)

🔗 代码/项目: GITHUB

💡 一句话要点

SynOOD：利用生成模型合成近边界OOD样本，提升OOD检测性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: OOD检测 分布外检测 生成模型 扩散模型 多模态学习 CLIP模型 近边界样本

📋 核心要点

现有OOD检测方法难以区分图像特征空间中接近InD数据的OOD样本，导致误分类。
SynOOD利用基础模型生成具有挑战性的合成OOD数据，微调CLIP模型，增强InD和OOD样本的边界区分能力。
SynOOD在ImageNet基准测试上取得了SOTA性能，且参数和运行时的增加非常小，超越了现有方法。

📝 摘要（中文）

预训练的视觉-语言模型在检测分布外(OOD)样本方面表现出了卓越的能力。然而，一些具有挑战性的OOD样本，它们在图像特征空间中接近于分布内(InD)数据，仍然可能导致错误分类。扩散模型和多模态大型语言模型(MLLM)等基础模型的出现为解决这个问题提供了潜在的方案。在这项工作中，我们提出了一种新颖的方法SynOOD，它利用基础模型生成合成的、具有挑战性的OOD数据，用于微调CLIP模型，从而增强InD和OOD样本之间的边界级区分。我们的方法使用迭代的图像修复过程，该过程由来自MLLM的上下文提示引导，以产生细微的、与边界对齐的OOD样本。这些样本通过基于能量分数等OOD分数的梯度进行噪声调整来细化，从而有效地从InD/OOD边界进行采样。利用这些精心合成的图像，我们微调CLIP图像编码器和从文本编码器导出的负标签特征，以加强近边界OOD样本与一组负标签之间的联系。最后，SynOOD在大型ImageNet基准测试上实现了最先进的性能，参数和运行时的增加最小。我们的方法显著超越了现有方法，代码可在https://github.com/Jarvisgivemeasuit/SynOOD 获取。

🔬 方法详解

问题定义：论文旨在解决OOD检测中，模型难以区分与InD数据在特征空间上非常接近的OOD样本的问题。现有方法无法有效处理这些“近边界”OOD样本，导致较高的误判率。

核心思路：核心思路是利用生成模型（扩散模型和MLLM）合成高质量的、位于InD和OOD数据边界附近的OOD样本，并使用这些合成数据来微调CLIP模型，从而提高模型对近边界OOD样本的区分能力。这样做的目的是让模型更敏感地捕捉InD和OOD之间的细微差异。

技术框架：SynOOD的整体框架包含以下几个主要阶段：1) 利用MLLM生成上下文提示；2) 使用扩散模型进行迭代图像修复，生成初始OOD样本；3) 基于OOD分数（如能量分数）的梯度调整噪声，优化OOD样本，使其更接近InD/OOD边界；4) 使用合成的OOD样本微调CLIP图像编码器和负标签特征。

关键创新：最重要的创新点在于利用MLLM的上下文信息指导扩散模型生成更具语义一致性的OOD样本，并通过梯度调整噪声的方式，精确控制OOD样本在特征空间中的位置，使其位于InD/OOD边界附近。这与以往直接生成OOD样本的方法不同，SynOOD更加关注边界区域的样本生成。

关键设计：关键设计包括：1) 使用MLLM生成详细的上下文描述，引导扩散模型生成高质量的OOD样本；2) 采用基于能量分数的梯度调整策略，精确控制OOD样本的噪声水平，使其位于InD/OOD边界附近；3) 微调CLIP模型的图像编码器和负标签特征，增强模型对OOD样本的识别能力。

🖼️ 关键图片

📊 实验亮点

SynOOD在ImageNet基准测试上取得了显著的性能提升，超越了现有的OOD检测方法。实验结果表明，SynOOD能够有效提高模型对近边界OOD样本的区分能力，降低误判率。此外，SynOOD在参数量和运行时开销方面增加很小，具有良好的实用性。

🎯 应用场景

该研究成果可广泛应用于安全攸关的计算机视觉任务中，例如自动驾驶、医疗图像诊断、工业质检等。通过提高OOD检测的准确性，可以有效降低系统在未知环境下的误判风险，提升系统的安全性和可靠性。未来，该方法可以进一步扩展到其他模态数据和更复杂的OOD检测场景。

📄 摘要（原文）

Pre-trained vision-language models have exhibited remarkable abilities in detecting out-of-distribution (OOD) samples. However, some challenging OOD samples, which lie close to in-distribution (InD) data in image feature space, can still lead to misclassification. The emergence of foundation models like diffusion models and multimodal large language models (MLLMs) offers a potential solution to this issue. In this work, we propose SynOOD, a novel approach that harnesses foundation models to generate synthetic, challenging OOD data for fine-tuning CLIP models, thereby enhancing boundary-level discrimination between InD and OOD samples. Our method uses an iterative in-painting process guided by contextual prompts from MLLMs to produce nuanced, boundary-aligned OOD samples. These samples are refined through noise adjustments based on gradients from OOD scores like the energy score, effectively sampling from the InD/OOD boundary. With these carefully synthesized images, we fine-tune the CLIP image encoder and negative label features derived from the text encoder to strengthen connections between near-boundary OOD samples and a set of negative labels. Finally, SynOOD achieves state-of-the-art performance on the large-scale ImageNet benchmark, with minimal increases in parameters and runtime. Our approach significantly surpasses existing methods, and the code is available at https://github.com/Jarvisgivemeasuit/SynOOD.

Synthesizing Near-Boundary OOD Samples for Out-of-Distribution Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理