Benchmarking Vision Foundation Models for Input Monitoring in Autonomous Driving
作者: Mert Keser, Halil Ibrahim Orhan, Niki Amini-Naieni, Gesina Schwalbe, Alois Knoll, Matthias Rottmann
分类: cs.CV
发布日期: 2025-01-14 (更新: 2025-04-04)
💡 一句话要点
利用视觉基础模型进行自动驾驶输入监控的异常检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 异常检测 视觉基础模型 密度估计 分布偏移
📋 核心要点
- 自动驾驶场景中,深度神经网络面临语义和协变量偏移带来的鲁棒性挑战,现有OOD检测方法存在局限。
- 论文提出一种基于视觉基础模型(VFM)和密度建模的无监督、模型无关的OOD检测框架,统一检测语义和协变量偏移。
- 实验表明,该方法在识别OOD输入方面优于现有方法,并能检测到可能导致下游任务错误的高风险输入。
📝 摘要(中文)
深度神经网络在自动驾驶等复杂开放世界领域中,面临着分布偏移的挑战。针对未知的新物体(语义偏移)或光照条件等风格(协变量偏移)的鲁棒性无法保证。因此,迫切需要可靠的运行时监控器来识别训练数据分布之外(OOD)的场景。目前OOD分类方法在自动驾驶等复杂领域中未经测试,检测到的偏移类型有限,甚至需要OOD样本的监督。为了应对未预料到的偏移,我们建立了一个围绕原则性、无监督和模型无关方法的框架,该方法统一了语义和协变量偏移的检测:找到训练数据特征分布的完整模型,然后使用其在新点处的密度作为内部数据(ID)分数。为了实现这一点,我们建议将视觉基础模型(VFM)作为特征提取器与密度建模技术相结合。通过对具有不同骨干架构的4个VFM和5个密度建模技术与已建立的基线进行全面基准测试,我们提供了首次对VFM在各种条件下的OOD分类能力的系统评估。与最先进的二元OOD分类方法的比较表明,具有密度估计的VFM嵌入在识别OOD输入方面优于现有方法。此外,我们表明我们的方法可以检测到可能导致下游任务中出现错误的高风险输入,从而提高整体性能。总而言之,VFM与强大的密度建模技术相结合,有望在复杂的视觉任务中实现模型无关、无监督、可靠的安全监控。
🔬 方法详解
问题定义:自动驾驶场景下的深度神经网络容易受到分布偏移的影响,导致性能下降甚至出现安全问题。现有的OOD检测方法要么在自动驾驶领域未经充分测试,要么只能检测特定类型的偏移,或者需要额外的OOD数据进行监督,难以应对真实世界中复杂多变的场景。
核心思路:论文的核心思路是利用视觉基础模型(VFM)强大的特征提取能力,将输入图像转换为高维特征向量,然后通过密度建模技术学习训练数据的特征分布。对于新的输入,计算其特征向量在训练数据分布中的密度,密度越低则越可能是OOD样本。这种方法无需OOD样本的监督,且具有模型无关性,可以灵活地应用于不同的深度学习模型。
技术框架:整体框架包含两个主要阶段:1) 特征提取阶段:使用预训练的视觉基础模型(如CLIP, DINOv2等)提取输入图像的特征向量。2) 密度建模阶段:使用密度估计技术(如高斯混合模型GMM, Parzen窗等)对训练数据的特征分布进行建模。对于新的输入,首先提取其特征向量,然后计算其在训练数据分布中的密度,并将其作为OOD分数。
关键创新:论文的关键创新在于将视觉基础模型与密度建模技术相结合,用于解决自动驾驶场景下的OOD检测问题。与传统的OOD检测方法相比,该方法无需OOD样本的监督,且具有模型无关性,可以灵活地应用于不同的深度学习模型。此外,该方法能够同时检测语义和协变量偏移,具有更强的泛化能力。
关键设计:论文中使用了多种视觉基础模型(CLIP, DINOv2等)和密度估计技术(GMM, Parzen窗等)进行实验,并比较了它们在OOD检测任务中的性能。论文还设计了一种基于OOD分数的风险评估方法,用于检测可能导致下游任务错误的高风险输入。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于视觉基础模型和密度建模的OOD检测方法在自动驾驶数据集上取得了显著的性能提升,优于现有的OOD检测方法。例如,使用DINOv2作为特征提取器,并结合高斯混合模型进行密度估计,在OOD检测任务中取得了最佳的性能表现。此外,该方法能够有效检测到可能导致下游任务错误的高风险输入,从而提高整体性能。
🎯 应用场景
该研究成果可应用于自动驾驶系统的安全监控模块,用于检测异常或未知的驾驶场景,从而提高系统的安全性和可靠性。此外,该方法还可以推广到其他计算机视觉任务中,例如医疗图像分析、工业缺陷检测等,具有广泛的应用前景。
📄 摘要(原文)
Deep neural networks (DNNs) remain challenged by distribution shifts in complex open-world domains like automated driving (AD): Robustness against yet unknown novel objects (semantic shift) or styles like lighting conditions (covariate shift) cannot be guaranteed. Hence, reliable operation-time monitors for identification of out-of-training-data-distribution (OOD) scenarios are imperative. Current approaches for OOD classification are untested for complex domains like AD, are limited in the kinds of shifts they detect, or even require supervision with OOD samples. To prepare for unanticipated shifts, we instead establish a framework around a principled, unsupervised and model-agnostic method that unifies detection of semantic and covariate shifts: Find a full model of the training data's feature distribution, to then use its density at new points as in-distribution (ID) score. To implement this, we propose to combine Vision Foundation Models (VFMs) as feature extractors with density modeling techniques. Through a comprehensive benchmark of 4 VFMs with different backbone architectures and 5 density-modeling techniques against established baselines, we provide the first systematic evaluation of OOD classification capabilities of VFMs across diverse conditions. A comparison with state-of-the-art binary OOD classification methods reveals that VFM embeddings with density estimation outperform existing approaches in identifying OOD inputs. Additionally, we show that our method detects high-risk inputs likely to cause errors in downstream tasks, thereby improving overall performance. Overall, VFMs, when coupled with robust density modeling techniques, are promising to realize model-agnostic, unsupervised, reliable safety monitors in complex vision tasks