Uncertainty-Weighted Image-Event Multimodal Fusion for Video Anomaly Detection
作者: Sungheon Jeong, Jihong Park, Mohsen Imani
分类: cs.CV
发布日期: 2025-05-05 (更新: 2025-05-08)
🔗 代码/项目: GITHUB
💡 一句话要点
提出图像-事件融合方法以解决视频异常检测中的时序信息不足问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频异常检测 多模态融合 事件表示 不确定性建模 卡尔曼滤波 深度学习 计算机视觉
📋 核心要点
- 现有的视频异常检测方法主要依赖RGB帧,无法有效捕捉瞬态运动信息,导致检测性能不足。
- 本文提出的IEF-VAD框架通过合成事件表示并与图像特征融合,利用不确定性建模来增强检测能力。
- IEF-VAD在多个真实世界的基准测试中表现出色,设定了新的性能标准,显示出合成事件表示的有效性。
📝 摘要(中文)
大多数现有的视频异常检测器仅依赖RGB帧,缺乏捕捉突发或瞬态运动线索的时序分辨率,这些线索是异常事件的关键指标。为了解决这一局限性,本文提出了图像-事件融合视频异常检测框架(IEF-VAD),该框架直接从RGB视频合成事件表示,并通过一种基于不确定性的过程将其与图像特征融合。该系统通过Student's-t似然模型对重尾传感器噪声进行建模,利用拉普拉斯近似推导出值级逆方差权重;应用卡尔曼风格的逐帧更新以平衡时间上的模态;并迭代精炼融合的潜在状态以消除残余的跨模态噪声。在没有专用事件传感器或帧级标签的情况下,IEF-VAD在多个真实世界的异常检测基准上设定了新的最先进水平。这些发现突显了合成事件表示在强调RGB帧中常被低估的运动线索方面的实用性,从而在不同应用中实现准确且稳健的视频理解,而无需专用事件传感器。
🔬 方法详解
问题定义:本文旨在解决现有视频异常检测方法在捕捉瞬态运动线索方面的不足,现有方法主要依赖RGB帧,缺乏必要的时序信息,导致异常事件的检测效果不佳。
核心思路:提出图像-事件融合框架(IEF-VAD),通过合成事件表示并与图像特征进行不确定性加权融合,从而增强对运动线索的捕捉能力。
技术框架:IEF-VAD框架包括三个主要模块:首先,利用Student's-t似然模型对传感器噪声进行建模;其次,应用卡尔曼风格的逐帧更新来平衡不同模态的信息;最后,迭代精炼融合的潜在状态,以消除残余的跨模态噪声。
关键创新:最重要的创新在于通过不确定性建模和事件表示的合成,显著提高了对瞬态运动线索的捕捉能力,与传统方法相比,能够更有效地处理视频中的异常事件。
关键设计:在技术细节上,采用拉普拉斯近似推导逆方差权重,确保了模态融合的有效性;同时,设计了逐帧更新机制,以动态调整模态权重,提升了系统的鲁棒性。
📊 实验亮点
在多个真实世界的异常检测基准上,IEF-VAD设定了新的最先进水平,具体性能数据表明,相较于现有方法,检测精度提升了XX%,召回率提升了YY%。这些结果验证了合成事件表示在视频理解中的重要性。
🎯 应用场景
该研究的潜在应用领域包括安全监控、交通监测和智能城市等场景,能够有效识别异常行为,提升系统的智能化水平。通过不依赖专用事件传感器,IEF-VAD为视频分析提供了更灵活的解决方案,具有广泛的实际价值和未来影响。
📄 摘要(原文)
Most existing video anomaly detectors rely solely on RGB frames, which lack the temporal resolution needed to capture abrupt or transient motion cues, key indicators of anomalous events. To address this limitation, we propose Image-Event Fusion for Video Anomaly Detection (IEF-VAD), a framework that synthesizes event representations directly from RGB videos and fuses them with image features through a principled, uncertainty-aware process. The system (i) models heavy-tailed sensor noise with a Student`s-t likelihood, deriving value-level inverse-variance weights via a Laplace approximation; (ii) applies Kalman-style frame-wise updates to balance modalities over time; and (iii) iteratively refines the fused latent state to erase residual cross-modal noise. Without any dedicated event sensor or frame-level labels, IEF-VAD sets a new state of the art across multiple real-world anomaly detection benchmarks. These findings highlight the utility of synthetic event representations in emphasizing motion cues that are often underrepresented in RGB frames, enabling accurate and robust video understanding across diverse applications without requiring dedicated event sensors. Code and models are available at https://github.com/EavnJeong/IEF-VAD.