CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments

作者: Rishika Bhagwatkar, Syrielle Montariol, Angelika Romanou, Beatriz Borges, Irina Rish, Antoine Bosselut

分类: cs.CV, cs.CL

发布日期: 2025-10-29

期刊: 2025 Conference on Empirical Methods in Natural Language Processing

💡 一句话要点

CAVE：提出真实世界视觉异常检测与解释基准，挑战视觉语言模型的常识推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉异常检测 常识推理 视觉语言模型 真实世界数据 基准数据集

📋 核心要点

现有异常检测方法主要集中于工业缺陷或合成数据，缺乏对真实世界复杂异常的建模能力。
CAVE数据集通过提供真实场景的异常标注，并支持描述、解释和论证等任务，弥补了现有基准的不足。
实验表明，即使是最先进的视觉语言模型在CAVE数据集上表现不佳，突显了常识推理在异常检测中的重要性。

📝 摘要（中文）

本文提出了CAVE，一个真实世界视觉异常基准数据集，旨在解决计算机视觉领域中长期存在的异常检测问题。与现有方法侧重于工业缺陷或合成异常不同，CAVE关注真实世界中更丰富和不可预测的异常情况。CAVE支持异常描述、解释和论证三个开放式任务，并提供细粒度的视觉定位标注，以及基于视觉表现、复杂性、严重性和常见性的异常分类。这些标注借鉴了认知科学关于人类如何识别和解决异常的研究，为评估视觉语言模型（VLM）在检测和理解异常方面的能力提供了一个全面的框架。实验表明，即使采用先进的提示策略，当前最先进的VLM在视觉异常感知和常识推理方面仍然表现不佳。CAVE作为一个现实且认知基础扎实的基准，将为推动VLM在异常检测和常识推理方面的研究提供有价值的资源。

🔬 方法详解

问题定义：现有视觉异常检测方法主要关注工业缺陷或合成异常，无法有效处理真实世界中复杂、多样且难以预测的异常情况。现有方法缺乏对常识推理的利用，难以理解异常背后的原因和逻辑，导致泛化能力不足。

核心思路：CAVE数据集的核心思路是构建一个更贴近真实世界的视觉异常基准，并结合认知科学的研究成果，提供更全面的标注信息，包括异常的描述、解释和论证。通过这种方式，可以更有效地评估视觉语言模型在异常检测和常识推理方面的能力。

技术框架：CAVE数据集的构建流程主要包括以下几个阶段：1) 数据收集：从真实世界场景中收集包含异常的图像数据。2) 异常标注：对图像中的异常进行细粒度的标注，包括视觉定位、类别划分、复杂性、严重性和常见性等信息。3) 任务设计：设计了异常描述、解释和论证三个开放式任务，用于评估视觉语言模型的性能。4) 模型评估：使用现有的视觉语言模型在CAVE数据集上进行实验，并分析其性能表现。

关键创新：CAVE数据集的关键创新在于其真实性和认知基础。与现有数据集相比，CAVE更贴近真实世界，包含了更丰富和多样的异常情况。同时，CAVE的标注信息借鉴了认知科学的研究成果，提供了更全面的异常描述和解释，有助于提高视觉语言模型的常识推理能力。

关键设计：CAVE数据集的关键设计包括：1) 细粒度的视觉定位标注，可以帮助模型更好地理解异常的位置和特征。2) 基于视觉表现、复杂性、严重性和常见性的异常分类，可以帮助模型更好地理解异常的类型和性质。3) 异常描述、解释和论证三个开放式任务，可以全面评估视觉语言模型在异常检测和常识推理方面的能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最先进的视觉语言模型（VLMs）在CAVE数据集上表现不佳，这表明当前VLMs在处理真实世界视觉异常和进行常识推理方面仍然存在很大的挑战。例如，在异常解释任务上，VLMs的准确率远低于人类水平，突显了常识推理在异常理解中的重要性。

🎯 应用场景

CAVE数据集可应用于智能监控、自动驾驶、医疗诊断等领域。例如，在智能监控中，可以利用CAVE训练的模型自动检测异常行为，提高安全防范能力。在自动驾驶中，可以利用CAVE训练的模型识别道路上的异常物体，提高驾驶安全性。在医疗诊断中，可以辅助医生识别医学影像中的异常病灶，提高诊断准确率。

📄 摘要（原文）

Humans can naturally identify, reason about, and explain anomalies in their environment. In computer vision, this long-standing challenge remains limited to industrial defects or unrealistic, synthetically generated anomalies, failing to capture the richness and unpredictability of real-world anomalies. In this work, we introduce CAVE, the first benchmark of real-world visual anomalies. CAVE supports three open-ended tasks: anomaly description, explanation, and justification; with fine-grained annotations for visual grounding and categorizing anomalies based on their visual manifestations, their complexity, severity, and commonness. These annotations draw inspiration from cognitive science research on how humans identify and resolve anomalies, providing a comprehensive framework for evaluating Vision-Language Models (VLMs) in detecting and understanding anomalies. We show that state-of-the-art VLMs struggle with visual anomaly perception and commonsense reasoning, even with advanced prompting strategies. By offering a realistic and cognitively grounded benchmark, CAVE serves as a valuable resource for advancing research in anomaly detection and commonsense reasoning in VLMs.

CAVE: Detecting and Explaining Commonsense Anomalies in Visual Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理