Towards Visual Discrimination and Reasoning of Real-World Physical Dynamics: Physics-Grounded Anomaly Detection

📄 arXiv: 2503.03562v3 📥 PDF

作者: Wenqiao Li, Yao Gu, Xintao Chen, Xiaohao Xu, Ming Hu, Xiaonan Huang, Yingna Wu

分类: cs.CV, cs.AI

发布日期: 2025-03-05 (更新: 2025-03-26)

备注: Accepted by CVPR25

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Phys-AD数据集,用于物理知识驱动的工业异常检测视觉判别与推理。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 工业异常检测 物理知识推理 视频理解 数据集 视觉推理 机器人 智能制造

📋 核心要点

  1. 现有工业异常检测算法主要在静态、语义简单的图像数据集上测试,缺乏对物理知识的理解和推理能力。
  2. 论文构建了Phys-AD数据集,旨在提供一个更接近真实工业场景,需要物理知识推理的异常检测基准。
  3. 论文基准测试了现有异常检测方法,并提出了PAEval指标,用于评估模型对异常物理原因的解释能力。

📝 摘要(中文)

本文提出了一个名为Phys-AD的大规模、真实世界、物理知识驱动的视频数据集,用于工业异常检测。该数据集使用真实的机器人手臂和电机收集,提供了多样化的动态、语义丰富的场景。Phys-AD包含超过6400个视频,涵盖22个真实世界的物体类别,与机器人手臂和电机交互,并展示了47种类型的异常。在Phys-AD中进行异常检测需要视觉推理,结合物理知识和视频内容来确定物体的异常情况。论文在无监督AD、弱监督AD和视频理解AD三种设置下,对最先进的异常检测方法进行了基准测试,突出了它们在处理物理知识驱动的异常方面的局限性。此外,论文还引入了物理异常解释(PAEval)指标,旨在评估视觉-语言基础模型不仅检测异常,而且为异常的潜在物理原因提供准确解释的能力。

🔬 方法详解

问题定义:现有工业异常检测方法在静态、语义简单的图像数据集上表现良好,但在真实工业场景中,物体交互复杂,异常往往与物理规律相悖。因此,需要模型具备基于物理知识的视觉判别和推理能力,才能有效检测异常。现有方法缺乏对物理知识的有效利用,难以处理此类问题。

核心思路:论文的核心思路是构建一个大规模、真实世界的物理知识驱动的视频数据集Phys-AD,该数据集包含丰富的物体交互和物理异常,旨在推动工业异常检测领域对物理知识的利用。同时,论文提出了PAEval指标,用于评估模型对异常物理原因的解释能力。

技术框架:Phys-AD数据集包含超过6400个视频,涵盖22个真实世界的物体类别,与机器人手臂和电机交互,并展示了47种类型的异常。论文在三种设置下对现有异常检测方法进行了基准测试:无监督AD、弱监督AD和视频理解AD。PAEval指标通过评估模型生成的异常解释与真实物理原因的匹配程度来衡量模型的推理能力。

关键创新:Phys-AD数据集是第一个大规模、真实世界、物理知识驱动的工业异常检测视频数据集。PAEval指标是第一个用于评估模型对异常物理原因解释能力的指标。

关键设计:Phys-AD数据集的构建过程中,精心设计了多种物体交互和物理异常,以保证数据集的多样性和挑战性。PAEval指标的设计考虑了异常解释的准确性和完整性,采用自然语言处理技术对模型生成的解释进行评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建的Phys-AD数据集包含6400+视频,涵盖22个物体类别和47种异常类型,是目前最大的物理知识驱动的工业异常检测数据集。基准测试表明,现有异常检测方法在Phys-AD数据集上表现不佳,突出了物理知识推理的重要性。PAEval指标为评估模型对异常物理原因的解释能力提供了一种新的方法。

🎯 应用场景

该研究成果可应用于智能制造、工业自动化、机器人维护等领域。通过提升机器对物理异常的检测和解释能力,可以减少生产事故、提高生产效率、降低维护成本。未来,该研究有望推动工业异常检测技术向更智能、更可靠的方向发展。

📄 摘要(原文)

Humans detect real-world object anomalies by perceiving, interacting, and reasoning based on object-conditioned physical knowledge. The long-term goal of Industrial Anomaly Detection (IAD) is to enable machines to autonomously replicate this skill. However, current IAD algorithms are largely developed and tested on static, semantically simple datasets, which diverge from real-world scenarios where physical understanding and reasoning are essential. To bridge this gap, we introduce the Physics Anomaly Detection (Phys-AD) dataset, the first large-scale, real-world, physics-grounded video dataset for industrial anomaly detection. Collected using a real robot arm and motor, Phys-AD provides a diverse set of dynamic, semantically rich scenarios. The dataset includes more than 6400 videos across 22 real-world object categories, interacting with robot arms and motors, and exhibits 47 types of anomalies. Anomaly detection in Phys-AD requires visual reasoning, combining both physical knowledge and video content to determine object abnormality. We benchmark state-of-the-art anomaly detection methods under three settings: unsupervised AD, weakly-supervised AD, and video-understanding AD, highlighting their limitations in handling physics-grounded anomalies. Additionally, we introduce the Physics Anomaly Explanation (PAEval) metric, designed to assess the ability of visual-language foundation models to not only detect anomalies but also provide accurate explanations for their underlying physical causes. Our project is available at https://guyao2023.github.io/Phys-AD/.