SGANet: Semantic and Geometric Alignment for Multimodal Multi-view Anomaly Detection

作者: Letian Bai, Chengyu Tao, Juan Du

分类: cs.CV

发布日期: 2026-04-07

💡 一句话要点

SGANet：用于多模态多视角异常检测的语义与几何对齐网络

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多视角学习 多模态学习 异常检测 表面缺陷检测 几何对齐 语义对齐 工业质检

📋 核心要点

现有方法难以处理多视角和多模态数据中因视角变化和模态差异导致的特征不一致性问题。
SGANet通过语义和几何对齐，学习跨视角和模态的物理一致性特征表示，从而解决上述问题。
在SiM3D和Eyecandies数据集上，SGANet在异常检测和定位方面均取得了state-of-the-art的性能。

📝 摘要（中文）

本文提出了一种用于多模态多视角异常检测的语义与几何对齐网络(SGANet)，旨在解决现有无监督方法中因视角变化和模态差异导致特征不一致的问题。SGANet通过有效结合语义和几何对齐，学习跨视角和模态的物理一致性特征表示。该网络包含三个关键模块：选择性跨视角特征精炼模块(SCFRM)，用于选择性地聚合相邻视角的有效patch特征以增强跨视角特征交互；语义-结构patch对齐(SSPA)，用于在保持视角转换下的结构一致性的同时，强制跨模态的语义对齐；多视角几何对齐(MVGA)，进一步对齐跨视角的几何对应patch。通过联合建模特征交互、语义和结构一致性以及全局几何对应关系，SGANet有效提升了多模态多视角环境下的异常检测性能。在SiM3D和Eyecandies数据集上的大量实验表明，SGANet在异常检测和定位方面均达到了最先进的性能，验证了其在实际工业场景中的有效性。

🔬 方法详解

问题定义：多视角异常检测旨在利用从多个视角捕获的观测结果来识别复杂物体表面的缺陷。现有的无监督方法在处理多视角和多模态数据时，由于视角变化和模态差异，容易出现特征不一致的问题，导致检测精度下降。

核心思路：论文的核心思路是通过语义和几何对齐来解决特征不一致性问题。具体来说，通过选择性地聚合相邻视角的有效特征，并强制跨模态的语义对齐，同时保持结构一致性，以及对齐跨视角的几何对应patch，从而学习到物理一致性的特征表示。这样设计的目的是为了使网络能够更好地理解不同视角和模态之间的关系，从而更准确地检测异常。

技术框架：SGANet的整体架构包含三个主要模块：1) 选择性跨视角特征精炼模块(SCFRM)，用于增强跨视角特征交互；2) 语义-结构patch对齐(SSPA)，用于强制跨模态的语义对齐，同时保持结构一致性；3) 多视角几何对齐(MVGA)，用于对齐跨视角的几何对应patch。这三个模块协同工作，共同提升异常检测性能。

关键创新：SGANet的关键创新在于其统一的框架，能够同时进行语义和几何对齐，从而有效地学习跨视角和模态的物理一致性特征表示。与现有方法相比，SGANet不仅考虑了特征交互，还考虑了语义和结构一致性以及全局几何对应关系，从而更全面地建模了多视角多模态数据。

关键设计：SCFRM模块通过注意力机制选择性地聚合相邻视角的特征。SSPA模块使用对比学习损失来强制语义对齐，并使用结构相似性损失来保持结构一致性。MVGA模块使用几何变换来对齐跨视角的patch。具体的损失函数和网络结构细节在论文中有详细描述，但具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

SGANet在SiM3D和Eyecandies数据集上取得了state-of-the-art的性能。具体来说，在异常检测和定位方面，SGANet均优于现有的基线方法，验证了其在实际工业场景中的有效性。具体的性能提升幅度在论文中有详细的数据展示，但此处不便直接引用。

🎯 应用场景

该研究成果可应用于工业制造中的产品缺陷检测，例如汽车零部件、电子产品等。通过多视角多模态数据的分析，可以更准确地识别产品表面的异常，提高产品质量和生产效率。未来，该方法还可以扩展到其他领域，如医疗影像分析、遥感图像处理等。

📄 摘要（原文）

Multi-view anomaly detection aims to identify surface defects on complex objects using observations captured from multiple viewpoints. However, existing unsupervised methods often suffer from feature inconsistency arising from viewpoint variations and modality discrepancies. To address these challenges, we propose a Semantic and Geometric Alignment Network (SGANet), a unified framework for multimodal multi-view anomaly detection that effectively combines semantic and geometric alignment to learn physically coherent feature representations across viewpoints and modalities. SGANet consists of three key components. The Selective Cross-view Feature Refinement Module (SCFRM) selectively aggregates informative patch features from adjacent views to enhance cross-view feature interaction. The Semantic-Structural Patch Alignment (SSPA) enforces semantic alignment across modalities while maintaining structural consistency under viewpoint transformations. The Multi-View Geometric Alignment (MVGA) further aligns geometrically corresponding patches across viewpoints. By jointly modeling feature interaction, semantic and structural consistency, and global geometric correspondence, SGANet effectively enhances anomaly detection performance in multimodal multi-view settings. Extensive experiments on the SiM3D and Eyecandies datasets demonstrate that SGANet achieves state-of-the-art performance in both anomaly detection and localization, validating its effectiveness in realistic industrial scenarios.

SGANet: Semantic and Geometric Alignment for Multimodal Multi-view Anomaly Detection

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理