DPU: Dynamic Prototype Updating for Multimodal Out-of-Distribution Detection

📄 arXiv: 2411.08227v1 📥 PDF

作者: Shawn Li, Huixian Gong, Hao Dong, Tiankai Yang, Zhengzhong Tu, Yue Zhao

分类: cs.CV, cs.AI

发布日期: 2024-11-12


💡 一句话要点

提出动态原型更新(DPU)框架,解决多模态OOD检测中类内差异问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 分布外检测 异常检测 动态原型 类内差异

📋 核心要点

  1. 现有OOD检测方法忽略了ID数据中的类内变异性,假设同类样本完全一致,导致性能下降。
  2. DPU框架通过动态更新类中心表示,自适应调整预测差异,从而提升模型鲁棒性和泛化能力。
  3. 实验结果表明,DPU在多模态OOD检测中显著提升性能,远域OOD检测提升高达80%。

📝 摘要(中文)

本文提出了一种用于多模态分布外(OOD)检测的动态原型更新(DPU)框架,旨在解决现有方法忽略类内变异性的问题。传统OOD检测主要集中于单模态输入,而多模态模型通过利用多种模态(如视频、光流、音频)来提高检测性能。然而,现有方法通常假设同类样本具有完美的一致性,忽略了类内差异,导致性能下降。DPU通过测量每个批次内相似样本的方差来动态更新每个类的类中心表示,从而实现自适应调整。这种方法能够基于更新后的类中心放大预测差异,提高模型在不同模态上的鲁棒性和泛化能力。在两个任务、五个数据集和九个基线OOD算法上的大量实验表明,DPU显著提高了OOD检测性能,并在远域OOD检测中实现了高达80%的改进,达到了新的SOTA水平。代码已在GitHub上公开。

🔬 方法详解

问题定义:论文旨在解决多模态OOD检测中,现有方法忽略类内差异导致检测性能下降的问题。现有方法通常假设同类样本具有完美的一致性,这在实际应用中是不成立的,因为即使是同一类别的样本,也可能存在显著的差异。这种假设导致模型对ID数据的细微变化过于敏感,从而降低了OOD检测的准确性。

核心思路:论文的核心思路是通过动态更新类中心表示来解决类内差异问题。具体来说,DPU框架会根据每个批次内相似样本的方差来调整类中心的位置,从而使类中心能够更好地代表该类别的整体特征。通过这种方式,模型可以更好地容忍ID数据中的细微变化,从而提高OOD检测的鲁棒性。

技术框架:DPU是一个即插即用的框架,可以与现有的OOD检测算法结合使用。其主要流程如下:1) 对于每个批次的输入数据,计算每个样本与各个类中心之间的距离;2) 根据距离选择与每个样本最相似的若干个样本;3) 计算这些相似样本的方差,并根据方差调整类中心的位置;4) 使用更新后的类中心计算OOD分数,并进行OOD检测。

关键创新:DPU的关键创新在于动态更新类中心表示。与传统的静态类中心表示相比,动态更新的类中心能够更好地适应ID数据中的类内差异,从而提高OOD检测的准确性。此外,DPU框架具有即插即用的特性,可以方便地与现有的OOD检测算法结合使用。

关键设计:DPU框架的关键设计包括:1) 如何选择相似样本:论文使用基于距离的方法选择相似样本,可以根据具体应用场景选择不同的距离度量方式;2) 如何计算方差:论文使用标准的方差计算公式,也可以根据具体应用场景选择其他的方差计算方法;3) 如何调整类中心:论文使用加权平均的方式调整类中心,权重取决于相似样本的方差,也可以根据具体应用场景选择其他的调整方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DPU框架在多个数据集和任务上显著提高了多模态OOD检测的性能。例如,在远域OOD检测中,DPU实现了高达80%的性能提升,超越了现有的SOTA方法。此外,DPU框架具有良好的泛化能力,可以与多种基线OOD检测算法结合使用,并取得一致的性能提升。

🎯 应用场景

该研究成果可应用于各种需要识别异常或未知输入的多模态场景,例如自动驾驶中的异常行为检测、医疗诊断中的疾病识别、金融风控中的欺诈检测等。通过提高模型对分布外数据的识别能力,可以增强系统的安全性和可靠性,降低潜在风险,具有重要的实际应用价值。

📄 摘要(原文)

Out-of-distribution (OOD) detection is essential for ensuring the robustness of machine learning models by identifying samples that deviate from the training distribution. While traditional OOD detection has primarily focused on single-modality inputs, such as images, recent advances in multimodal models have demonstrated the potential of leveraging multiple modalities (e.g., video, optical flow, audio) to enhance detection performance. However, existing methods often overlook intra-class variability within in-distribution (ID) data, assuming that samples of the same class are perfectly cohesive and consistent. This assumption can lead to performance degradation, especially when prediction discrepancies are uniformly amplified across all samples. To address this issue, we propose Dynamic Prototype Updating (DPU), a novel plug-and-play framework for multimodal OOD detection that accounts for intra-class variations. Our method dynamically updates class center representations for each class by measuring the variance of similar samples within each batch, enabling adaptive adjustments. This approach allows us to amplify prediction discrepancies based on the updated class centers, thereby improving the model's robustness and generalization across different modalities. Extensive experiments on two tasks, five datasets, and nine base OOD algorithms demonstrate that DPU significantly improves OOD detection performance, setting a new state-of-the-art in multimodal OOD detection, with improvements of up to 80 percent in Far-OOD detection. To facilitate accessibility and reproducibility, our code is publicly available on GitHub.