Unsupervised Multi-View Visual Anomaly Detection via Progressive Homography-Guided Alignment
作者: Xintao Chen, Xiaohao Xu, Bozhong Zheng, Yun Liu, Yingna Wu
分类: cs.CV, cs.AI
发布日期: 2025-11-24
💡 一句话要点
提出ViewSense-AD,通过同构变换引导对齐实现无监督多视角异常检测。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting)
关键词: 多视角学习 异常检测 同构变换 扩散模型 无监督学习
📋 核心要点
- 现有单视角异常检测方法无法有效处理多视角图像中因视角变化产生的表观差异,导致高误报率。
- ViewSense-AD通过多视角对齐模块(MVAM)和视角对齐潜在扩散模型(VALDM)显式建模跨视角的几何一致性,学习视角不变特征。
- 在RealIAD和MANTA数据集上的实验表明,VSAD在像素、视角和样本级别的异常检测中显著优于现有方法。
📝 摘要(中文)
本文提出了一种新的无监督多视角视觉异常检测框架ViewSense-AD (VSAD),旨在解决视角变化引起的良性外观差异与真实缺陷难以区分的问题。VSAD通过显式建模跨视角的几何一致性来学习视角不变的特征表示。其核心是多视角对齐模块(MVAM),该模块利用同构变换来投影和对齐相邻视角之间的对应特征区域。MVAM被集成到视角对齐潜在扩散模型(VALDM)中,从而在去噪过程中实现渐进式多阶段对齐,使模型能够从粗到细地构建对物体表面的连贯和整体理解。此外,轻量级的融合细化模块(FRM)增强了对齐特征的全局一致性,抑制噪声并提高判别能力。通过比较扩散模型的多层次特征与学习到的正常原型记忆库来进行异常检测。在RealIAD和MANTA数据集上的大量实验表明,VSAD达到了新的state-of-the-art,在像素、视角和样本级别的视觉异常检测方面显著优于现有方法,证明了其对大视角变化和复杂纹理的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决无监督多视角视觉异常检测问题,即如何区分由于视角变化引起的正常外观变化和真正的缺陷。现有方法通常将多视角图像视为一组不相关的图像,忽略了视角之间的几何关系,导致特征表示不一致,从而产生较高的误报率。
核心思路:论文的核心思路是利用视角间的几何一致性来学习视角不变的特征表示。通过显式地建模和对齐不同视角下的特征,可以消除视角变化带来的影响,从而更准确地检测出真正的异常。
技术框架:VSAD框架主要包含三个模块:多视角对齐模块(MVAM)、视角对齐潜在扩散模型(VALDM)和融合细化模块(FRM)。MVAM负责利用同构变换对齐相邻视角的特征;VALDM将MVAM集成到扩散模型中,实现渐进式的多阶段对齐;FRM用于增强对齐特征的全局一致性,抑制噪声。异常检测通过比较扩散模型的多层次特征与正常原型记忆库进行。
关键创新:论文的关键创新在于提出了MVAM和VALDM,将同构变换和扩散模型相结合,实现了多视角特征的对齐和融合。这种方法能够有效地消除视角变化的影响,并学习到更加鲁棒的特征表示。此外,FRM模块进一步提升了特征的全局一致性。
关键设计:MVAM使用深度学习方法估计相邻视角之间的同构矩阵,并利用该矩阵对特征进行变换和对齐。VALDM在扩散模型的去噪过程中逐步进行特征对齐,从而实现从粗到细的对齐效果。FRM采用轻量级的卷积神经网络结构,以减少计算量。损失函数包括重构损失、对齐损失和对抗损失等,用于训练模型的各个模块。
📊 实验亮点
VSAD在RealIAD和MANTA数据集上取得了显著的性能提升,在像素级别、视角级别和样本级别的异常检测中均优于现有方法。例如,在RealIAD数据集上,VSAD的F1-score比现有最佳方法提高了5%以上,证明了其在复杂场景下的鲁棒性和有效性。
🎯 应用场景
该研究成果可应用于工业质检、安防监控、医学影像分析等领域。例如,在工业质检中,可以利用多视角图像检测产品表面的缺陷,提高检测精度和效率。在安防监控中,可以利用多摄像头捕捉的图像进行异常行为检测,提升安全防范能力。在医学影像分析中,可以利用多视角医学图像辅助医生诊断疾病。
📄 摘要(原文)
Unsupervised visual anomaly detection from multi-view images presents a significant challenge: distinguishing genuine defects from benign appearance variations caused by viewpoint changes. Existing methods, often designed for single-view inputs, treat multiple views as a disconnected set of images, leading to inconsistent feature representations and a high false-positive rate. To address this, we introduce ViewSense-AD (VSAD), a novel framework that learns viewpoint-invariant representations by explicitly modeling geometric consistency across views. At its core is our Multi-View Alignment Module (MVAM), which leverages homography to project and align corresponding feature regions between neighboring views. We integrate MVAM into a View-Align Latent Diffusion Model (VALDM), enabling progressive and multi-stage alignment during the denoising process. This allows the model to build a coherent and holistic understanding of the object's surface from coarse to fine scales. Furthermore, a lightweight Fusion Refiner Module (FRM) enhances the global consistency of the aligned features, suppressing noise and improving discriminative power. Anomaly detection is performed by comparing multi-level features from the diffusion model against a learned memory bank of normal prototypes. Extensive experiments on the challenging RealIAD and MANTA datasets demonstrate that VSAD sets a new state-of-the-art, significantly outperforming existing methods in pixel, view, and sample-level visual anomaly proving its robustness to large viewpoint shifts and complex textures.