Physic-HM: Restoring Physical Generative Logic in Multimodal Anomaly Detection via Hierarchical Modulation

📄 arXiv: 2512.21650v2 📥 PDF

作者: Xiao Liu, Junchen Jin, Yanjie Zhao, Zhixuan Xing

分类: cs.LG

发布日期: 2025-12-25 (更新: 2026-01-20)

备注: Working in progress


💡 一句话要点

Physic-HM:通过层级调制恢复物理生成逻辑的多模态异常检测

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态异常检测 无监督学习 物理归纳偏置 层级调制 智能制造

📋 核心要点

  1. 现有方法在多模态异常检测中忽略了过程模态和结果模态之间的单向物理生成逻辑,导致检测精度下降。
  2. Physic-HM通过引入传感器引导的PHM调制机制和物理层级架构,显式地建模了过程到结果的依赖关系。
  3. 在Weld-4M基准测试中,Physic-HM取得了显著的性能提升,I-AUROC达到了90.7%,超越了现有技术水平。

📝 摘要(中文)

多模态无监督异常检测(UAD)对于智能制造中的质量保证至关重要,尤其是在机器人焊接等复杂过程中。然而,现有方法常常忽略过程逻辑,将过程模态(如实时视频、音频和传感器)和结果模态(如焊后图像)视为对称的特征来源,从而忽略了固有的单向物理生成逻辑。此外,高维视觉数据和低维传感器信号之间的异构性差距常常导致关键的过程上下文被淹没。本文提出了Physic-HM,一个多模态UAD框架,它显式地结合了物理归纳偏置来建模过程到结果的依赖关系。具体来说,我们的框架包含两个关键创新:一个传感器引导的PHM调制机制,它利用低维传感器信号作为上下文来指导高维视听特征提取;以及一个物理层级架构,它强制执行单向生成映射,以识别违反物理一致性的异常。在Weld-4M基准上的大量实验表明,Physic-HM实现了90.7%的SOTA I-AUROC。

🔬 方法详解

问题定义:论文旨在解决多模态无监督异常检测(UAD)中,现有方法忽略过程模态(如传感器数据)和结果模态(如图像)之间的物理生成逻辑的问题。现有方法通常将不同模态视为对称的特征来源,没有考虑过程对结果的单向影响,导致关键过程上下文信息丢失,从而影响异常检测的准确性。此外,高维视觉数据和低维传感器数据之间的异构性也加剧了这一问题。

核心思路:Physic-HM的核心思路是显式地引入物理归纳偏置,建模过程到结果的依赖关系。通过利用低维传感器信号作为上下文来指导高维视听特征的提取,并强制执行单向生成映射,从而识别违反物理一致性的异常。这种方法能够更好地捕捉过程和结果之间的内在联系,提高异常检测的准确性和鲁棒性。

技术框架:Physic-HM框架主要包含两个关键模块:传感器引导的PHM(Physical Hierarchical Modulation)调制机制和物理层级架构。首先,传感器引导的PHM调制机制利用低维传感器信号作为上下文,指导高维视听特征的提取,从而缓解模态异构性问题。然后,物理层级架构强制执行单向生成映射,从过程模态生成结果模态,从而识别违反物理一致性的异常。整体流程是从过程模态输入开始,经过PHM调制和层级生成,最终输出异常检测结果。

关键创新:Physic-HM的关键创新在于:1) 传感器引导的PHM调制机制,它利用低维传感器信号作为上下文来指导高维视听特征提取,有效缓解了模态异构性问题。2) 物理层级架构,它强制执行单向生成映射,从而能够识别违反物理一致性的异常。与现有方法相比,Physic-HM显式地建模了过程到结果的依赖关系,更符合实际物理过程的逻辑。

关键设计:论文中可能包含一些关键的技术细节,例如:PHM调制机制的具体实现方式,可能涉及到注意力机制或者其他特征融合方法;物理层级架构的具体网络结构,例如使用生成对抗网络(GAN)或者变分自编码器(VAE)来实现单向生成映射;损失函数的设计,可能包括重构损失、一致性损失等,用于约束模型的学习过程。这些具体细节需要参考论文原文才能确定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Physic-HM在Weld-4M基准测试中取得了显著的性能提升,I-AUROC达到了90.7%,超越了现有最先进的方法。这一结果表明,Physic-HM能够有效地建模过程到结果的依赖关系,提高异常检测的准确性和鲁棒性。相较于其他方法,Physic-HM在异常检测性能方面取得了显著的进步。

🎯 应用场景

Physic-HM可广泛应用于智能制造领域的质量控制和异常检测,例如机器人焊接、半导体制造等复杂工业过程。通过实时监测过程数据和结果数据,Physic-HM能够及时发现潜在的质量问题,提高生产效率和产品质量。该研究的成果有助于推动智能制造技术的发展,实现更高效、更可靠的生产过程。

📄 摘要(原文)

Multimodal Unsupervised Anomaly Detection (UAD) is critical for quality assurance in smart manufacturing, particularly in complex processes like robotic welding. However, existing methods often suffer from process-logic blindness, treating process modalities (e.g., real-time video, audio, and sensors) and result modalities (e.g., post-weld images) as symmetric feature sources, thereby ignoring the inherent unidirectional physical generative logic. Furthermore, the heterogeneity gap between high-dimensional visual data and low-dimensional sensor signals frequently leads to critical process context being drowned out. In this paper, we propose Physic-HM, a multimodal UAD framework that explicitly incorporates physical inductive bias to model the process-to-result dependency. Specifically, our framework incorporates two key innovations: a Sensor-Guided PHM Modulation mechanism that utilizes low-dimensional sensor signals as context to guide high-dimensional audio-visual feature extraction, and a Physic-Hierarchical architecture that enforces a unidirectional generative mapping to identify anomalies that violate physical consistency. Extensive experiments on Weld-4M benchmark demonstrate that Physic-HM achieves a SOTA I-AUROC of 90.7%. The source code of Physic-HM will be released after the paper is accepted.