Knowledge-Guided Failure Prediction: Detecting When Object Detectors Miss Safety-Critical Objects
作者: Jakob Paul Zimmermann, Gerrit Holzbach, David Lerch
分类: cs.CV, cs.LG
发布日期: 2026-03-26
💡 一句话要点
提出知识引导的失效预测方法,用于检测目标检测器在安全关键场景下的漏检。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 目标检测 失效预测 异常检测 视觉基础模型 安全关键系统
📋 核心要点
- 现有目标检测器在安全关键场景中可能发生漏检,而传统异常检测方法无法有效预测这种功能性失效。
- KGFP通过测量目标检测器特征与视觉基础模型嵌入之间的语义错位来检测漏检,将漏检视为异常。
- 实验表明,KGFP能显著提高行人召回率,并在多个视觉领域优于现有异常检测方法。
📝 摘要(中文)
在安全关键环境中部署的目标检测器可能会发生无提示的失效,例如漏检行人、工人或其他安全关键对象,且不发出任何警告。传统的异常检测(OOD)方法侧重于识别不熟悉的输入,但不能直接预测检测器自身的功能性失效。我们提出了一种知识引导的失效预测(KGFP)方法,这是一种基于表征的监控框架,它将漏检的安全关键目标视为需要在运行时检测的异常。KGFP使用具有角度距离度量的双编码器架构,测量内部目标检测器特征与视觉基础模型嵌入之间的语义错位。一个关键特性是,当检测器在其能力范围之外运行,或者视觉基础模型本身遇到新的输入时,这两个嵌入会发散,产生一个高角度信号,可靠地标记不安全的图像。我们将我们提出的KGFP方法与基线OOD检测方法进行了比较。在COCO行人检测中,应用KGFP作为选择性预测门,在5%的假阳性率(FPR)下,接受图像中的行人召回率从64.3%提高到84.5%,并在六个COCO-O视觉领域保持了强大的性能,大大优于OOD基线。
🔬 方法详解
问题定义:论文旨在解决目标检测器在安全关键场景下发生无提示失效的问题,即在没有警告的情况下漏检关键目标(如行人)。现有异常检测方法主要关注识别不熟悉的输入,而无法直接预测检测器自身的功能性失效,因此无法有效应对这种漏检问题。
核心思路:论文的核心思路是将目标检测器的漏检视为一种异常,并利用视觉基础模型提供的知识来指导异常检测。通过比较目标检测器内部特征与视觉基础模型嵌入之间的语义一致性,来判断检测器是否正常工作。当检测器失效或输入超出其能力范围时,两者之间的语义错位会增大,从而被检测为异常。
技术框架:KGFP采用双编码器架构,包含目标检测器和视觉基础模型两个编码器。目标检测器提取图像的内部特征,视觉基础模型提取图像的全局语义嵌入。然后,计算这两个特征向量之间的角度距离,作为语义错位的度量。如果角度距离超过预设阈值,则认为检测器可能发生失效。整个框架可以作为一个选择性预测门,只接受角度距离低于阈值的检测结果。
关键创新:KGFP的关键创新在于利用视觉基础模型提供的外部知识来指导目标检测器的失效预测。与传统的异常检测方法不同,KGFP不依赖于检测器自身的训练数据,因此可以更好地泛化到新的场景和目标。此外,KGFP通过测量语义错位,能够更准确地判断检测器是否发生功能性失效,而不仅仅是输入是否异常。
关键设计:论文使用预训练的视觉基础模型(如CLIP)作为外部知识来源。角度距离被用作语义错位的度量,因为它对向量的模长不敏感,只关注方向差异。通过在COCO数据集上训练目标检测器,并在COCO-O数据集上评估KGFP的性能,来验证其有效性。论文还探索了不同的角度距离阈值对性能的影响。
🖼️ 关键图片
📊 实验亮点
在COCO行人检测任务中,KGFP作为选择性预测门,在5%的假阳性率下,将接受图像中的行人召回率从64.3%提高到84.5%。在六个COCO-O视觉领域,KGFP的性能也显著优于基线OOD检测方法,表明其具有良好的泛化能力。
🎯 应用场景
KGFP可应用于自动驾驶、机器人导航、智能监控等安全关键领域,提高目标检测系统的可靠性和安全性。通过提前预测检测器的失效,可以采取相应的安全措施,例如切换到备用系统或发出警告,从而避免潜在的事故。
📄 摘要(原文)
Object detectors deployed in safety-critical environments can fail silently, e.g. missing pedestrians, workers, or other safety-critical objects without emitting any warning. Traditional Out Of Distribution (OOD) detection methods focus on identifying unfamiliar inputs, but do not directly predict functional failures of the detector itself. We introduce Knowledge Guided Failure Prediction (KGFP), a representation-based monitoring framework that treats missed safety-critical detections as anomalies to be detected at runtime. KGFP measures semantic misalignment between internal object detector features and visual foundation model embeddings using a dual-encoder architecture with an angular distance metric. A key property is that when either the detector is operating outside its competence or the visual foundation model itself encounters novel inputs, the two embeddings diverge, producing a high-angle signal that reliably flags unsafe images. We compare our novel KGFS method to baseline OOD detection methods. On COCO person detection, applying KGFP as a selective-prediction gate raises person recall among accepted images from 64.3% to 84.5% at 5% False Positive Rate (FPR), and maintains strong performance across six COCO-O visual domains, outperforming OOD baselines by large margins. Our code, models, and features are published at https://gitlab.cc-asp.fraunhofer.de/iosb_public/KGFP.