UTOPYA: A Multimodal Deep Learning Framework for Physics-Informed Anomaly Detection and Time-Series Prediction

📄 arXiv: 2605.18188v1 📥 PDF

作者: Robson W. S. Pessoa, Julien Amblard, Alessandra Russo, Idelfonso B. R. Nogueira

分类: cs.LG

发布日期: 2026-05-18


💡 一句话要点

UTOPYA:用于物理信息异常检测和时间序列预测的多模态深度学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 异常检测 时间序列预测 物理信息正则化 批处理过程 深度学习 课程学习 过程监控

📋 核心要点

  1. 批处理过程异常检测面临瞬态动力学、故障标签稀缺以及依赖单一模态数据等挑战。
  2. UTOPYA框架通过多模态融合、物理信息正则化和课程学习,联合解决异常检测、时间序列预测和阶段分类问题。
  3. 实验结果表明,UTOPYA显著优于现有基线方法,并揭示了数据稀缺场景下正则化与异常检测的权衡。

📝 摘要(中文)

本研究针对批处理过程中的瞬态动力学、稀缺的故障标签以及对单模态传感器数据的依赖等异常检测难题,提出了UTOPYA(用于物理信息异常检测和时间序列预测的统一时序观测)框架。UTOPYA是一个包含1520万参数的多模态框架,通过特征线性调制(FiLM)条件下的跨模态注意力和门控融合,融合了八种数据模态,从而联合解决批次蒸馏中的异常检测、时间序列预测和阶段分类问题。该研究引入了一种物理信息正则化方案,以强制执行时间平滑性和热力学单调性,同时课程学习按照物理难度顺序引入训练样本。在Arweiler等人(2026)的119个实验多模态批次蒸馏数据集上,UTOPYA在多信号实验级别评分下,实现了0.832的窗口级别测试AUROC和0.874,显著优于在相同条件下评估的四个外部基线(PCA、自编码器、Isolation Forest和LSTM自编码器)(窗口级别AUROC超过最佳基线+0.147)。对15种架构配置的多模态消融实验表明,通过FiLM调节的静态上下文是关键因素,将实验级别的多信号AUROC从单模态基线的0.729提升至0.874(+0.145)。此外,对14种设计选择的训练消融实验表明,包括实例归一化、Mixup、集成、测试时增强和随机权重平均在内的几种广泛采用的技术未能改善或积极降低了这种数据稀缺环境中的泛化能力。这些负面结果揭示了基于平滑的正则化和异常检测之间的根本矛盾,为多模态过程监控部署提供了实践指导。

🔬 方法详解

问题定义:论文旨在解决批处理过程中异常检测的难题,现有方法通常依赖于单模态数据,难以捕捉复杂过程中的异常。此外,瞬态动力学和稀缺的故障标签也增加了异常检测的难度。

核心思路:论文的核心思路是利用多模态数据融合和物理信息正则化来提高异常检测的准确性和鲁棒性。通过融合不同传感器的数据,可以更全面地了解过程状态。物理信息正则化则可以约束模型的输出,使其符合已知的物理规律,从而提高模型的泛化能力。

技术框架:UTOPYA框架包含以下主要模块:1) 多模态数据输入模块,用于接收来自不同传感器的时序数据;2) 特征提取模块,用于提取每个模态的特征;3) 跨模态注意力模块,用于学习不同模态之间的关系;4) 门控融合模块,用于融合不同模态的特征;5) 预测模块,用于预测未来的时间序列;6) 异常检测模块,用于检测异常事件;7) 物理信息正则化模块,用于约束模型的输出。

关键创新:UTOPYA的关键创新在于以下几个方面:1) 提出了一个多模态融合框架,可以有效地利用不同传感器的数据;2) 引入了物理信息正则化方案,可以约束模型的输出,使其符合已知的物理规律;3) 采用了课程学习策略,可以提高模型的训练效率。

关键设计:UTOPYA的关键设计包括:1) 使用特征线性调制(FiLM)进行静态上下文建模;2) 使用跨模态注意力机制学习不同模态之间的关系;3) 使用门控融合机制融合不同模态的特征;4) 设计了时间平滑性和热力学单调性正则化项;5) 采用了课程学习策略,按照物理难度顺序引入训练样本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UTOPYA在批次蒸馏数据集上取得了显著的性能提升,窗口级别测试AUROC达到0.832和0.874,超过最佳基线0.147。多模态消融实验表明,静态上下文建模是关键因素,提升实验级别多信号AUROC达0.145。此外,研究还发现一些常用的正则化技术在数据稀缺场景下反而会降低性能。

🎯 应用场景

UTOPYA框架可应用于各种批处理过程的异常检测和过程监控,例如化工、制药、食品等行业。该研究有助于提高生产过程的安全性、稳定性和效率,减少资源浪费和环境污染。未来,该框架可以进一步扩展到其他领域,例如智能制造、智慧城市等。

📄 摘要(原文)

Anomaly detection in batch processes is hindered by transient dynamics, scarce fault labels, and reliance on single-modality sensor data. This work introduces UTOPYA (Unified Temporal Observation for Physics-Informed Anomaly Detection and Time-Series Prediction), a 15.2M-parameter multimodal framework that jointly addresses anomaly detection, time-series prediction, and phase classification in batch distillation by fusing eight data modalities through Feature-wise Linear Modulation (FiLM) conditioned cross-modal attention and gated fusion. A physics-informed regularisation scheme introduced in this work enforces temporal smoothness and thermodynamic monotonicity, while curriculum learning introduces training samples in order of physical difficulty. On the 119-experiment multimodal batch distillation dataset of Arweiler et al. (2026), UTOPYA achieves a window-level test AUROC of 0.832 and 0.874 under multi-signal experiment-level scoring, substantially outperforming four external baselines (PCA, autoencoder, Isolation Forest, and LSTM autoencoder) evaluated under identical conditions (+0.147 window-level AUROC over the best baseline). A multimodal ablation over 15~architectural configurations shows that static context via FiLM conditioning is the key enabler, lifting experiment-level multi-signal AUROC by +0.145 over the unimodal baseline (0.729 to 0.874). Separately, a training ablation across 14 design choices reveals that several widely-adopted techniques, including instance normalisation, Mixup, ensembling, test-time augmentation, and stochastic weight averaging, fail to improve or actively degrade generalisation in this data-scarce setting. These negative results expose a fundamental tension between smoothing-based regularisation and anomaly detection, providing practical guidance for multimodal process monitoring deployment.