Real-IAD MVN: A Multi-View Normal Vector Dataset and Benchmark for High-Fidelity Industrial Anomaly Detection
作者: Wenbing Zhu, Jianing Liang, Linjie Cheng, Yurui Pan, Zhuhao Chen, Qingwang Yan, Yudong Cheng, Jianghui Zhang, Mingmin Chi, Bo Peng
分类: cs.CV
发布日期: 2026-05-08
备注: Accepted to CVPR 2025. 15 pages
💡 一句话要点
提出Real-IAD MVN数据集与基准,通过多视角法线图解决工业微小几何缺陷检测难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 工业异常检测 表面法线 多模态融合 几何缺陷检测 计算机视觉 数据集构建
📋 核心要点
- 现有方法在处理工业场景中微小几何缺陷(如划痕、凹坑)时,受限于2D图像的纹理干扰或3D点云的稀疏性,检测精度不足。
- 提出Real-IAD-MVN数据集,通过采集多视角高保真表面法线图,提供稠密的几何信息,有效弥补了传统模态在微观几何表征上的缺失。
- 实验表明,基于多视角法线图的重构基准方法在检测性能上显著优于现有SOTA多模态融合方案,验证了该数据集的有效性与优越性。
📝 摘要(中文)
工业异常检测(IAD)对于质量控制至关重要,但现有方法难以捕捉细微的几何缺陷。传统的2D RGB图像对纹理和光照敏感,却常忽略精细的几何异常;而3D点云虽能捕捉宏观形状,但因稀疏性难以检测划痕或凹坑等微小缺陷。为解决这一数据局限,本文提出了Real-IAD-MVN(多视角法线)大规模工业数据集。通过升级采集系统,该数据集获取了五个视角的精细表面法线图,完全替代了稀疏的3D数据,提供了微观层面的全面几何表征,使侧壁及遮挡缺陷变得可检测。实验证明,引入稠密的多视角伪3D(表面法线)数据显著优于稀疏点云。此外,本文提出的基于重构的基准方法,通过学习图像与法线图的跨模态统一原型,超越了现有的多模态融合方法,展示了该数据集在推动几何异常检测方面的巨大潜力。
🔬 方法详解
问题定义:论文旨在解决工业异常检测中“微小几何缺陷难以捕捉”的问题。现有痛点在于:2D RGB图像受纹理和光照影响大,无法反映几何深度;3D点云数据虽包含几何信息,但因分辨率限制(稀疏性)无法识别微米级的表面缺陷。
核心思路:引入表面法线(Surface Normal)作为核心模态。法线图能够以稠密像素级方式表征物体表面的几何朝向,对微小起伏极其敏感。通过多视角采集,消除单视角下的遮挡问题,从而实现对复杂工业零件的全方位几何监控。
技术框架:该方法包含数据采集与基准模型两部分。数据采集系统通过多视角相机阵列生成高保真法线图。基准模型采用重构架构,设计了双流网络分别处理RGB图像与法线图,通过特征对齐与融合,学习跨模态的统一原型,进而通过重构误差定位异常区域。
关键创新:首次将多视角法线图引入工业异常检测领域,证明了稠密伪3D数据在几何缺陷检测中优于稀疏点云。提出了跨模态统一原型学习机制,有效整合了外观特征与几何特征,提升了对复杂缺陷的判别力。
关键设计:模型核心在于跨模态特征融合模块,通过注意力机制或特征拼接实现RGB与法线信息的深度交互。损失函数设计上,结合了重构损失与结构相似性损失,确保模型在正常样本上能够精确重构出高保真的几何与外观细节,从而在异常区域产生显著的重构偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Real-IAD-MVN数据集在多类工业零件检测任务中表现优异。对比实验显示,引入多视角法线图的方案在检测精度(AUROC)上显著超越了仅使用RGB图像或稀疏点云的基线方法。提出的跨模态统一原型基准模型,在处理复杂几何缺陷时,相比现有的多模态融合SOTA方法,展现出更强的鲁棒性与更高的缺陷定位准确度。
🎯 应用场景
该研究广泛适用于精密制造、电子元器件检测、汽车零部件质量控制等领域。特别是在需要高精度表面质量评估的场景中,如金属加工件的划痕检测、注塑件的凹坑识别等,能够显著提升工业自动化产线的缺陷检出率,降低漏检风险。
📄 摘要(原文)
Industrial Anomaly Detection (IAD) is critical for quality control, but existing methods struggle with subtle, geometric defects. Standard 2D (RGB) images are sensitive to texture and lighting but often miss fine geometric anomalies. While 3D point clouds capture macro-shape, they are typically too sparse to detect micro-defects like scratches or pits. We address this fundamental data limitation by introducing Real-IAD-MVN (Multi-View Normal), a large-scale industrial dataset. By upgrading our acquisition system, Real-IAD-MVN captures high-fidelity surface normal maps from five distinct viewpoints, replacing sparse 3D data entirely. This provides a comprehensive geometric representation at a micro-detail level, making previously invisible side-wall and occluded defects explicitly detectable. Our experiments, conducted on this new dataset, first provide evidence that incorporating dense, multi-view pseudo-3D (surface normals) yields significantly better detection performance than using sparse 3D point cloud data. To further validate the dataset and provide a strong benchmark, we introduce a baseline method based on reconstruction, which learns to extract cross-modal unified prototypes from the image and normal map streams. We demonstrate that this unified prototype approach surpasses existing state-of-the-art multimodal fusion methods, highlighting the rich potential of our new dataset for advancing geometric anomaly detection.