CoLoRSMamba: Conditional LoRA-Steered Mamba for Supervised Multimodal Violence Detection

📄 arXiv: 2604.03329 📥 PDF

作者: Damith Chamalke Senadeera, Dimitrios Kollias, Gregory Slabaugh

分类: cs.CV, cs.AI, cs.LG, cs.SD

发布日期: 2026-04-07


💡 一句话要点

提出CoLoRSMamba,利用条件LoRA引导的Mamba模型进行多模态暴力检测。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态融合 暴力检测 Mamba模型 条件LoRA 状态空间模型 视频理解 音频理解

📋 核心要点

  1. 现有暴力检测方法在嘈杂或与视觉场景弱相关的真实世界音频环境中表现不佳,多模态融合面临挑战。
  2. CoLoRSMamba利用VideoMamba的CLS token引导AudioMamba的状态空间参数,实现场景感知的音频动态建模,无需token级别的交叉注意力。
  3. 在音频过滤的NTU-CCTV和DVD数据集子集上,CoLoRSMamba超越了多种基线模型,并在准确率和效率之间取得了良好的平衡。

📝 摘要(中文)

本文提出了一种定向的视频到音频多模态架构CoLoRSMamba,它通过CLS引导的条件LoRA耦合了VideoMamba和AudioMamba。在每一层,VideoMamba的CLS token产生一个通道级的调制向量和一个稳定门,用于调整AudioMamba的投影,这些投影负责选择性状态空间参数(Delta、B、C),包括步长路径,从而产生场景感知的音频动态,而无需token级别的交叉注意力。训练结合了二元分类和一个对称的AV-InfoNCE目标,该目标对齐了clip级别的音频和视频嵌入。为了支持公平的多模态评估,我们从时间注释中整理了NTU-CCTV和DVD数据集的音频过滤clip级别子集,仅保留具有可用音频的clip。在这些子集上,CoLoRSMamba优于代表性的音频、视频和多模态基线,在NTU-CCTV上实现了88.63%的准确率/86.24%的F1-V,在DVD上实现了75.77%的准确率/72.94%的F1-V。此外,它还提供了良好的准确率-效率权衡,以更少的参数和FLOPs超越了几个更大的模型。

🔬 方法详解

问题定义:论文旨在解决多模态暴力检测中,音频信息在复杂环境下的噪声干扰问题,以及如何有效融合视频和音频信息以提升检测准确率。现有方法在处理真实场景中嘈杂或与视频内容弱相关的音频时表现不佳,并且传统的多模态融合方法,如交叉注意力,计算成本较高。

核心思路:论文的核心思路是利用视频信息来引导音频信息的处理,使音频模型能够关注与视频内容相关的音频特征,从而提高模型对真实场景的适应性。通过条件LoRA机制,VideoMamba的CLS token可以动态地调整AudioMamba的状态空间参数,实现场景感知的音频建模。

技术框架:CoLoRSMamba架构包含VideoMamba和AudioMamba两个主要模块。VideoMamba处理视频信息,提取视觉特征,并生成CLS token。AudioMamba处理音频信息,其状态空间参数受到VideoMamba的CLS token的调节。整个框架通过一个对称的AV-InfoNCE损失函数进行训练,该损失函数旨在对齐clip级别的音频和视频嵌入。

关键创新:该论文的关键创新在于使用条件LoRA机制,将VideoMamba的全局上下文信息(CLS token)注入到AudioMamba的状态空间参数中,从而实现了场景感知的音频建模。这种方法避免了token级别的交叉注意力,降低了计算复杂度,同时提高了模型的性能。与现有方法相比,CoLoRSMamba能够更好地利用视频信息来过滤和增强音频信息,从而提高了在复杂环境下的暴力检测准确率。

关键设计:关键设计包括:1) 使用VideoMamba的CLS token生成通道级的调制向量和稳定门,用于调整AudioMamba的投影;2) 使用对称的AV-InfoNCE损失函数来对齐音频和视频嵌入;3) 精心设计的音频过滤数据集子集,用于公平的多模态评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CoLoRSMamba在音频过滤的NTU-CCTV和DVD数据集子集上取得了显著的性能提升。在NTU-CCTV数据集上,CoLoRSMamba达到了88.63%的准确率和86.24%的F1-V,在DVD数据集上达到了75.77%的准确率和72.94%的F1-V,优于现有的音频、视频和多模态基线模型。此外,CoLoRSMamba以更少的参数和FLOPs超越了几个更大的模型,展现了良好的准确率-效率权衡。

🎯 应用场景

CoLoRSMamba可应用于智能监控、安防系统、智能家居等领域,用于自动检测暴力事件,提高安全预警能力。该研究成果有助于提升在复杂环境下的事件检测准确率,降低误报率,具有重要的社会价值和应用前景。未来可进一步扩展到其他多模态事件检测任务,例如异常行为检测、跌倒检测等。

📄 摘要(原文)

Violence detection benefits from audio, but real-world soundscapes can be noisy or weakly related to the visible scene. We present CoLoRSMamba, a directional Video to Audio multimodal architecture that couples VideoMamba and AudioMamba through CLS-guided conditional LoRA. At each layer, the VideoMamba CLS token produces a channel-wise modulation vector and a stabilization gate that adapt the AudioMamba projections responsible for the selective state-space parameters (Delta, B, C), including the step-size pathway, yielding scene-aware audio dynamics without token-level cross-attention. Training combines binary classification with a symmetric AV-InfoNCE objective that aligns clip-level audio and video embeddings. To support fair multimodal evaluation, we curate audio-filtered clip level subsets of the NTU-CCTV and DVD datasets from temporal annotations, retaining only clips with available audio. On these subsets, CoLoRSMamba outperforms representative audio-only, video-only, and multimodal baselines, achieving 88.63% accuracy / 86.24% F1-V on NTU-CCTV and 75.77% accuracy / 72.94% F1-V on DVD. It further offers a favorable accuracy-efficiency tradeoff, surpassing several larger models with fewer parameters and FLOPs.