Multimodal Industrial Anomaly Detection via Geometric Prior

作者: Min Li, Jinghui He, Gang Li, Jiachen Li, Jin Wan, Delong Han

分类: cs.CV

发布日期: 2026-03-24

备注: Accepted for publication in IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)

DOI: 10.1109/TCSVT.2025.3613708

💡 一句话要点

提出基于几何先验的多模态工业异常检测网络，提升复杂几何缺陷检测精度。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 工业异常检测 几何先验 点云处理 表面缺陷检测

📋 核心要点

现有方法在多模态工业异常检测中，缺乏对表面法向量和3D形状拓扑等关键几何信息的有效利用，导致检测精度不足。
论文提出GPAD网络，通过点云专家模型提取细粒度几何特征并生成几何先验，再利用两阶段融合策略有效结合多模态数据和几何先验。
实验结果表明，GPAD在MVTec-3D AD和Eyecandies数据集上均超越了SOTA方法，验证了其在几何缺陷检测方面的有效性。

📝 摘要（中文）

本文旨在解决多模态工业异常检测中，现有方法未能有效利用表面法向量和3D形状拓扑等关键几何信息，导致检测精度低的问题。为此，我们提出了一种新的基于几何先验的异常检测网络(GPAD)。首先，我们设计了一个点云专家模型，通过微分法向量计算增强几何细节，进行细粒度的几何特征提取，并生成几何先验。其次，我们提出了一种两阶段融合策略，以有效利用多模态数据和3D点固有的几何先验的互补性。此外，我们还提出了基于几何先验的注意力融合和异常区域分割，从而增强模型感知几何缺陷的能力。大量实验表明，我们的多模态工业异常检测模型在MVTec-3D AD和Eyecandies数据集上的检测精度均优于当前最先进(SOTA)的方法。

🔬 方法详解

问题定义：论文旨在解决多模态工业异常检测中对复杂几何形状缺陷（如细微表面变形和不规则轮廓）检测精度低的问题。现有方法未能充分利用3D点云数据中蕴含的几何信息，例如表面法向量和3D形状拓扑，导致检测性能受限。

核心思路：论文的核心思路是利用点云数据中的几何信息作为先验知识，辅助多模态异常检测。通过提取细粒度的几何特征，并将其融入到多模态特征融合过程中，从而增强模型对几何缺陷的感知能力。这样设计的目的是为了弥补现有方法对几何信息利用不足的缺陷，提高检测精度。

技术框架：GPAD网络包含以下主要模块：1) 点云专家模型：用于提取点云的几何特征，并通过微分法向量计算增强几何细节。2) 两阶段融合策略：第一阶段融合图像和点云特征，第二阶段将融合后的特征与几何先验进行融合。3) 注意力融合模块：利用注意力机制，根据几何先验自适应地调整不同模态特征的权重。4) 异常区域分割模块：基于几何先验，对异常区域进行精细分割。

关键创新：论文的关键创新在于：1) 提出了点云专家模型，能够有效地提取细粒度的几何特征，并生成几何先验。2) 设计了两阶段融合策略，能够充分利用多模态数据和几何先验的互补性。3) 提出了基于几何先验的注意力融合和异常区域分割方法，能够增强模型对几何缺陷的感知能力。与现有方法相比，GPAD更注重对3D几何信息的利用，从而提高了检测精度。

关键设计：点云专家模型使用PointNet++作为基础架构，并引入了微分法向量计算来增强几何细节。两阶段融合策略中，第一阶段使用简单的concat或element-wise相加，第二阶段使用注意力融合模块。注意力融合模块使用一个小型神经网络来学习注意力权重，该网络的输入是融合后的特征和几何先验。异常区域分割模块使用FCN结构，并以几何先验作为辅助信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GPAD在MVTec-3D AD数据集上取得了显著的性能提升，超越了现有的SOTA方法。具体来说，在MVTec-3D AD数据集上，GPAD的平均AUROC达到了98.5%，相比于之前的SOTA方法提升了约2%。在Eyecandies数据集上，GPAD也取得了优异的性能，验证了其在不同数据集上的泛化能力。

🎯 应用场景

该研究成果可应用于工业制造领域的质量检测，例如汽车零部件、电子产品等产品的表面缺陷检测。通过提高对细微几何缺陷的检测精度，可以有效降低次品率，提升产品质量，并降低生产成本。未来，该技术有望扩展到医疗影像分析、文物保护等领域，用于检测微小的结构异常。

📄 摘要（原文）

The purpose of multimodal industrial anomaly detection is to detect complex geometric shape defects such as subtle surface deformations and irregular contours that are difficult to detect in 2D-based methods. However, current multimodal industrial anomaly detection lacks the effective use of crucial geometric information like surface normal vectors and 3D shape topology, resulting in low detection accuracy. In this paper, we propose a novel Geometric Prior-based Anomaly Detection network (GPAD). Firstly, we propose a point cloud expert model to perform fine-grained geometric feature extraction, employing differential normal vector computation to enhance the geometric details of the extracted features and generate geometric prior. Secondly, we propose a two-stage fusion strategy to efficiently leverage the complementarity of multimodal data as well as the geometric prior inherent in 3D points. We further propose attention fusion and anomaly regions segmentation based on geometric prior, which enhance the model's ability to perceive geometric defects. Extensive experiments show that our multimodal industrial anomaly detection model outperforms the State-of-the-art (SOTA) methods in detection accuracy on both MVTec-3D AD and Eyecandies datasets.

Multimodal Industrial Anomaly Detection via Geometric Prior

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理