PiercingEye: Dual-Space Video Violence Detection with Hyperbolic Vision-Language Guidance
作者: Jiaxu Leng, Zhanjie Wu, Mingpi Tan, Mengjingcheng Mo, Jiankang Zheng, Qingqing Li, Ji Gan, Xinbo Gao
分类: cs.CV
发布日期: 2025-04-26
备注: Submitted to IEEE Transactions on Pattern Analysis and Machine Intelligence
💡 一句话要点
PiercingEye:利用双空间和超曲视觉-语言引导进行视频暴力检测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频暴力检测 双空间学习 超曲几何 视觉-语言对比学习 弱监督学习
📋 核心要点
- 现有VVD方法在区分视觉相似但语义不同的事件时面临挑战,原因是缺乏有效的层次建模和足够的模糊样本。
- PiercingEye提出了一种双空间学习框架,结合欧几里得和双曲几何,利用层敏感聚合和跨空间注意力增强特征表示。
- 实验表明,PiercingEye在XD-Violence和UCF-Crime数据集上取得了SOTA性能,尤其在模糊事件子集上表现突出。
📝 摘要(中文)
现有的弱监督视频暴力检测(VVD)方法主要依赖于欧几里得表示学习,由于有限的层次建模和不足的模糊训练样本,常常难以区分视觉上相似但语义上不同的事件。为了解决这一挑战,我们提出了PiercingEye,一种新颖的双空间学习框架,它协同欧几里得和双曲几何来增强判别性特征表示。具体来说,PiercingEye引入了一种层敏感的双曲聚合策略,并结合双曲Dirichlet能量约束,以逐步建模事件层次结构;以及一种跨空间注意力机制,以促进欧几里得和双曲空间之间互补的特征交互。此外,为了缓解模糊样本的稀缺性,我们利用大型语言模型生成逻辑引导的模糊事件描述,通过双曲视觉-语言对比损失实现显式监督,该损失通过动态相似性感知加权来优先考虑高混淆样本。在XD-Violence和UCF-Crime基准上的大量实验表明,PiercingEye实现了最先进的性能,尤其是在新策划的模糊事件子集上取得了优异的结果,验证了其在细粒度暴力检测方面的卓越能力。
🔬 方法详解
问题定义:现有的弱监督视频暴力检测方法主要依赖欧几里得空间进行特征表示,难以有效建模视频事件的层次结构,导致对视觉相似但语义不同的暴力事件区分能力不足。同时,训练数据中模糊样本的稀缺性进一步加剧了这一问题,使得模型难以学习到鲁棒的判别性特征。
核心思路:PiercingEye的核心思路是利用双空间学习框架,结合欧几里得空间和双曲空间各自的优势。欧几里得空间擅长捕捉局部细节,而双曲空间擅长建模层次结构。通过在双曲空间中进行层敏感的聚合,并引入Dirichlet能量约束,可以更好地建模事件的层次关系。同时,利用跨空间注意力机制,促进两个空间特征的互补交互,从而增强特征的判别能力。此外,利用大型语言模型生成模糊样本,并设计双曲视觉-语言对比损失,显式地监督模型学习区分相似但不同的暴力事件。
技术框架:PiercingEye的整体框架包含以下几个主要模块:1) 特征提取模块:使用预训练的视觉模型提取视频帧的视觉特征。2) 双曲空间建模模块:将视觉特征映射到双曲空间,并进行层敏感的聚合,利用Dirichlet能量约束规范双曲空间的结构。3) 跨空间注意力模块:利用注意力机制,融合欧几里得空间和双曲空间的特征。4) 模糊样本生成模块:利用大型语言模型生成逻辑引导的模糊事件描述。5) 对比学习模块:设计双曲视觉-语言对比损失,利用生成的模糊样本进行对比学习。
关键创新:PiercingEye的关键创新在于以下几个方面:1) 提出了双空间学习框架,结合欧几里得空间和双曲空间的优势,增强特征表示能力。2) 引入了层敏感的双曲聚合策略和Dirichlet能量约束,有效建模事件的层次结构。3) 设计了跨空间注意力机制,促进两个空间特征的互补交互。4) 利用大型语言模型生成模糊样本,并设计双曲视觉-语言对比损失,显式地监督模型学习区分相似但不同的暴力事件。
关键设计:在双曲空间建模中,使用了Poincaré ball模型来表示双曲空间,并使用Moebius加法进行特征聚合。Dirichlet能量约束用于规范双曲空间的结构,使其更好地反映事件的层次关系。跨空间注意力机制使用了Transformer结构,学习两个空间特征之间的相关性。双曲视觉-语言对比损失使用了InfoNCE损失,并引入了动态相似性感知加权,优先考虑高混淆样本。
🖼️ 关键图片
📊 实验亮点
PiercingEye在XD-Violence和UCF-Crime数据集上取得了state-of-the-art的性能。尤其是在新构建的模糊事件子集上,PiercingEye的性能显著优于其他方法,验证了其在细粒度暴力检测方面的卓越能力。具体而言,在XD-Violence数据集上,PiercingEye的平均精度均值(mAP)相比于最佳基线提高了约3个百分点。在UCF-Crime数据集上,PiercingEye的AUC指标也取得了显著提升。
🎯 应用场景
PiercingEye在视频监控、内容审核、智能安防等领域具有广泛的应用前景。它可以用于自动检测视频中的暴力事件,提高安全监控的效率和准确性。此外,该方法还可以应用于其他需要细粒度事件识别的场景,例如异常行为检测、视频内容理解等。未来,该研究可以进一步扩展到其他模态的数据,例如音频、文本等,实现更全面的暴力事件检测。
📄 摘要(原文)
Existing weakly supervised video violence detection (VVD) methods primarily rely on Euclidean representation learning, which often struggles to distinguish visually similar yet semantically distinct events due to limited hierarchical modeling and insufficient ambiguous training samples. To address this challenge, we propose PiercingEye, a novel dual-space learning framework that synergizes Euclidean and hyperbolic geometries to enhance discriminative feature representation. Specifically, PiercingEye introduces a layer-sensitive hyperbolic aggregation strategy with hyperbolic Dirichlet energy constraints to progressively model event hierarchies, and a cross-space attention mechanism to facilitate complementary feature interactions between Euclidean and hyperbolic spaces. Furthermore, to mitigate the scarcity of ambiguous samples, we leverage large language models to generate logic-guided ambiguous event descriptions, enabling explicit supervision through a hyperbolic vision-language contrastive loss that prioritizes high-confusion samples via dynamic similarity-aware weighting. Extensive experiments on XD-Violence and UCF-Crime benchmarks demonstrate that PiercingEye achieves state-of-the-art performance, with particularly strong results on a newly curated ambiguous event subset, validating its superior capability in fine-grained violence detection.