PointAD+: Learning Hierarchical Representations for Zero-shot 3D Anomaly Detection

📄 arXiv: 2509.03277v5 📥 PDF

作者: Qihang Zhou, Shibo He, Jiangtao Yan, Wenchao Meng, Jiming Chen

分类: cs.CV

发布日期: 2025-09-03 (更新: 2025-11-24)

备注: Submitted to TPAMI


💡 一句话要点

PointAD+:学习分层表示,实现零样本3D异常检测

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 3D异常检测 零样本学习 分层表示学习 对比学习 点云处理

📋 核心要点

  1. 现有3D异常检测方法难以泛化到未见过的物体类别,尤其是在类别语义高度多样的情况下,缺乏有效的零样本学习能力。
  2. PointAD+通过引入隐式和显式3D表示,并结合分层表示学习和跨层次对比对齐,实现了对3D异常的全面理解。
  3. 实验结果表明,PointAD+在零样本3D异常检测任务中表现出色,能够有效地检测和分割具有高度多样化类别语义的未见物体的3D异常。

📝 摘要(中文)

本文旨在将CLIP强大的2D泛化能力迁移到3D领域,以识别具有高度多样化类别语义的未见物体的3D异常。为此,我们提出了一个统一的框架,通过利用点和像素级别的信息来全面检测和分割3D异常。我们首先设计了PointAD,它利用点-像素对应关系,通过其相关的渲染像素表示来表示3D异常。这种方法被称为隐式3D表示,因为它只关注渲染像素异常,而忽略了点云中固有的空间关系。然后,我们提出了PointAD+,通过引入显式3D表示来进一步拓宽对3D异常的解释,强调空间异常以发现异常的空间关系。因此,我们提出了G-aggregation来包含几何信息,使聚合的点表示具有空间感知能力。为了同时捕获渲染和空间异常,PointAD+提出了分层表示学习,将隐式和显式异常语义融入到分层文本提示中:渲染层的渲染提示和几何层的几何提示。进一步引入了跨层次对比对齐,以促进渲染层和几何层之间的交互,促进相互异常学习。最后,PointAD+集成了来自两层的异常语义,以捕获广义的异常语义。在测试过程中,PointAD+可以以即插即用的方式集成RGB信息,并进一步提高其检测性能。大量的实验表明,PointAD+在具有高度多样化类别语义的未见物体上的ZS 3D异常检测方面具有优越性,实现了对异常的整体理解。

🔬 方法详解

问题定义:现有的3D异常检测方法在处理未见过的物体类别时,泛化能力不足。尤其是在类别语义高度多样的情况下,这些方法难以有效地识别和分割3D异常。现有方法通常依赖于特定类别的训练数据,无法适应新的、未知的物体类别,限制了其在实际应用中的适用性。

核心思路:PointAD+的核心思路是将CLIP强大的2D泛化能力迁移到3D领域。它通过结合点云的几何信息和渲染图像的像素信息,构建了隐式和显式3D表示,从而能够更全面地理解3D异常。通过分层表示学习和跨层次对比对齐,PointAD+能够有效地学习到广义的异常语义,从而实现零样本的3D异常检测。

技术框架:PointAD+的整体框架包括以下几个主要模块:1) PointAD模块,利用点-像素对应关系,通过渲染像素表示来表示3D异常(隐式3D表示)。2) G-aggregation模块,通过聚合几何信息,使点表示具有空间感知能力(显式3D表示)。3) 分层表示学习模块,将隐式和显式异常语义融入到分层文本提示中。4) 跨层次对比对齐模块,促进渲染层和几何层之间的交互,实现相互异常学习。5) 异常语义集成模块,整合来自两层的异常语义,以捕获广义的异常语义。

关键创新:PointAD+的关键创新在于其分层表示学习和跨层次对比对齐机制。通过分层表示学习,PointAD+能够同时捕获渲染和空间异常,从而更全面地理解3D异常。跨层次对比对齐则促进了渲染层和几何层之间的交互,使得模型能够更好地学习到广义的异常语义。此外,PointAD+还能够以即插即用的方式集成RGB信息,进一步提高其检测性能。

关键设计:PointAD+的关键设计包括:1) G-aggregation的具体实现方式,如何有效地聚合几何信息。2) 分层文本提示的设计,如何将隐式和显式异常语义融入到提示中。3) 跨层次对比对齐的损失函数设计,如何促进渲染层和几何层之间的交互。4) 异常语义集成的具体方法,如何有效地整合来自两层的异常语义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PointAD+在零样本3D异常检测任务中取得了显著的性能提升。具体而言,PointAD+在多个数据集上超越了现有的基线方法,实现了更高的检测精度和分割效果。此外,PointAD+还能够有效地处理具有高度多样化类别语义的未见物体,展现了其强大的泛化能力。

🎯 应用场景

PointAD+在工业质检、医疗诊断、自动驾驶等领域具有广泛的应用前景。例如,在工业质检中,可以用于检测产品表面的缺陷和异常;在医疗诊断中,可以用于识别医学图像中的病灶和异常组织;在自动驾驶中,可以用于检测道路上的障碍物和异常情况。该研究成果有助于提高相关领域的自动化水平和智能化程度。

📄 摘要(原文)

In this paper, we aim to transfer CLIP's robust 2D generalization capabilities to identify 3D anomalies across unseen objects of highly diverse class semantics. To this end, we propose a unified framework to comprehensively detect and segment 3D anomalies by leveraging both point- and pixel-level information. We first design PointAD, which leverages point-pixel correspondence to represent 3D anomalies through their associated rendering pixel representations. This approach is referred to as implicit 3D representation, as it focuses solely on rendering pixel anomalies but neglects the inherent spatial relationships within point clouds. Then, we propose PointAD+ to further broaden the interpretation of 3D anomalies by introducing explicit 3D representation, emphasizing spatial abnormality to uncover abnormal spatial relationships. Hence, we propose G-aggregation to involve geometry information to enable the aggregated point representations spatially aware. To simultaneously capture rendering and spatial abnormality, PointAD+ proposes hierarchical representation learning, incorporating implicit and explicit anomaly semantics into hierarchical text prompts: rendering prompts for the rendering layer and geometry prompts for the geometry layer. A cross-hierarchy contrastive alignment is further introduced to promote the interaction between the rendering and geometry layers, facilitating mutual anomaly learning. Finally, PointAD+ integrates anomaly semantics from both layers to capture the generalized anomaly semantics. During the test, PointAD+ can integrate RGB information in a plug-and-play manner and further improve its detection performance. Extensive experiments demonstrate the superiority of PointAD+ in ZS 3D anomaly detection across unseen objects with highly diverse class semantics, achieving a holistic understanding of abnormality.