Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection

📄 arXiv: 2505.02393v2 📥 PDF

作者: Sungheon Jeong, Jihong Park, Mohsen Imani

分类: cs.CV

发布日期: 2025-05-05 (更新: 2025-05-08)

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于不确定性加权图像-事件多模态融合的视频异常检测方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频异常检测 多模态融合 事件相机 不确定性加权 卡尔曼滤波 图像-事件融合 运动信息 深度学习

📋 核心要点

  1. 传统视频异常检测方法依赖RGB帧,但时间分辨率不足,难以捕捉异常事件中的快速运动。
  2. IEF-VAD框架通过合成事件表示并与图像特征融合,利用不确定性加权平衡不同模态的信息。
  3. 实验表明,IEF-VAD在多个异常检测基准上取得了新的state-of-the-art结果,无需专用事件传感器。

📝 摘要(中文)

现有视频异常检测器主要依赖RGB帧,缺乏捕捉突发或瞬时运动线索所需的时间分辨率,而这些线索是异常事件的关键指标。为了解决这一局限性,我们提出了用于视频异常检测的图像-事件融合(IEF-VAD)框架,该框架直接从RGB视频合成事件表示,并通过有原则的、不确定性感知的过程将其与图像特征融合。该系统(i)使用Student's-t似然建模重尾传感器噪声,通过拉普拉斯近似导出值级逆方差权重;(ii)应用卡尔曼式逐帧更新来平衡模态随时间的变化;(iii)迭代地细化融合的潜在状态以消除残余的跨模态噪声。在没有任何专用事件传感器或帧级标签的情况下,IEF-VAD在多个真实世界的异常检测基准上创造了新的技术水平。这些发现突出了合成事件表示在强调运动线索方面的效用,这些运动线索在RGB帧中经常被低估,从而能够在不需要专用事件传感器的情况下,在各种应用中实现准确而鲁棒的视频理解。

🔬 方法详解

问题定义:现有视频异常检测方法主要依赖RGB图像,但RGB图像的时间分辨率有限,难以捕捉到异常事件中快速、突发的运动信息。这种时间分辨率的不足导致现有方法在检测某些类型的异常时表现不佳。此外,获取帧级别的异常标签成本高昂,限制了监督学习方法的应用。

核心思路:本文的核心思路是利用RGB视频合成事件表示,并将其与RGB图像特征融合,从而弥补RGB图像时间分辨率的不足。通过引入事件表示,模型可以更好地捕捉视频中的运动信息,从而提高异常检测的准确性。此外,论文还引入了不确定性加权机制,根据不同模态信息的可靠性动态调整其权重,从而提高融合的鲁棒性。

技术框架:IEF-VAD框架主要包含三个模块:事件表示合成模块、多模态融合模块和异常检测模块。首先,事件表示合成模块从RGB视频中提取事件信息,生成事件表示。然后,多模态融合模块将事件表示和RGB图像特征进行融合,得到融合后的特征表示。最后,异常检测模块利用融合后的特征表示进行异常检测。多模态融合模块采用卡尔曼滤波的思路,进行逐帧更新,平衡不同模态的信息。

关键创新:该论文的关键创新在于以下几个方面:(1) 提出了一种从RGB视频合成事件表示的方法,无需额外的事件相机。(2) 引入了不确定性加权机制,根据不同模态信息的可靠性动态调整其权重,提高了融合的鲁棒性。(3) 提出了基于卡尔曼滤波的多模态融合方法,能够有效地平衡不同模态的信息,并抑制噪声。

关键设计:论文使用Student's t分布对传感器噪声进行建模,并通过拉普拉斯近似导出值级别的逆方差权重,用于衡量不同模态信息的不确定性。多模态融合模块采用卡尔曼滤波的更新方式,逐帧更新融合后的特征表示。损失函数方面,论文采用重构误差作为异常评分,并使用自适应阈值来区分正常和异常事件。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IEF-VAD在多个真实世界的异常检测基准上取得了显著的性能提升,创造了新的state-of-the-art结果。值得注意的是,该方法无需任何专用事件传感器或帧级标签,降低了部署成本和数据标注难度。实验结果表明,合成事件表示能够有效地强调运动线索,提高异常检测的准确性和鲁棒性。

🎯 应用场景

该研究成果可广泛应用于智能监控、工业异常检测、自动驾驶等领域。例如,在智能监控中,可以利用该方法检测异常行为,提高安全防范能力。在工业异常检测中,可以用于检测设备故障,减少生产损失。在自动驾驶中,可以用于检测道路上的异常事件,提高驾驶安全性。该研究的未来影响在于,它提供了一种有效的利用多模态信息进行视频理解的方法,有望推动相关领域的发展。

📄 摘要(原文)

Most existing video anomaly detectors rely solely on RGB frames, which lack the temporal resolution needed to capture abrupt or transient motion cues, key indicators of anomalous events. To address this limitation, we propose Image-Event Fusion for Video Anomaly Detection (IEF-VAD), a framework that synthesizes event representations directly from RGB videos and fuses them with image features through a principled, uncertainty-aware process. The system (i) models heavy-tailed sensor noise with a Student`s-t likelihood, deriving value-level inverse-variance weights via a Laplace approximation; (ii) applies Kalman-style frame-wise updates to balance modalities over time; and (iii) iteratively refines the fused latent state to erase residual cross-modal noise. Without any dedicated event sensor or frame-level labels, IEF-VAD sets a new state of the art across multiple real-world anomaly detection benchmarks. These findings highlight the utility of synthetic event representations in emphasizing motion cues that are often underrepresented in RGB frames, enabling accurate and robust video understanding across diverse applications without requiring dedicated event sensors. Code and models are available at https://github.com/EavnJeong/IEF-VAD.