MV-GMN: State Space Model for Multi-View Action Recognition

📄 arXiv: 2501.13829v1 📥 PDF

作者: Yuhui Lin, Jiaxuan Lu, Yue Yong, Jiahao Zhang

分类: cs.CV

发布日期: 2025-01-23


💡 一句话要点

提出MV-GMN模型,高效处理多视角动作识别中的多模态、多视角和多时序数据。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多视角动作识别 状态空间模型 图卷积网络 多模态融合 Mamba NTU RGB+D 120 线性复杂度

📋 核心要点

  1. Transformer模型在多视角动作识别中表现出色,但计算资源需求大,尤其是在多视角和多时序场景下。
  2. MV-GMN模型通过创新的多视角图Mamba网络,有效聚合多模态、多视角和多时序信息,降低计算复杂度。
  3. 实验表明,MV-GMN在NTU RGB+D 120数据集上取得了优异的准确率,并超越了Transformer基线,同时保持线性推理复杂度。

📝 摘要(中文)

本文提出了一种名为MV-GMN的状态空间模型,旨在高效地聚合多模态数据(RGB和骨骼)、多视角信息和多时序信息,从而以更低的计算复杂度实现动作识别。MV-GMN模型采用了一种创新的多视角图Mamba网络,该网络由一系列MV-GMN块组成。每个块包含一个双向状态空间块和一个GCN模块。双向状态空间块引入了四种扫描策略,包括视角优先和时间优先的方法。GCN模块利用基于规则和基于KNN的方法构建图网络,有效地整合来自不同视角和时间实例的特征。实验结果表明,MV-GMN在多个数据集上优于现有技术,在NTU RGB+D 120数据集的跨主体和跨视角场景中分别达到了97.3%和96.7%的显著准确率。MV-GMN也超越了基于Transformer的基线,同时仅需要线性推理复杂度,突显了该模型降低计算负载并增强多视角动作识别技术的可扩展性和适用性的能力。

🔬 方法详解

问题定义:现有的多视角动作识别方法,特别是基于Transformer的模型,在处理多视角和多时序数据时,计算复杂度高,需要大量的计算资源。这限制了它们在资源受限场景中的应用。

核心思路:MV-GMN的核心思路是利用状态空间模型(SSM)的线性复杂度优势,结合图卷积网络(GCN)的特征聚合能力,设计一种高效的多视角动作识别模型。通过精心设计的双向状态空间块和GCN模块,模型能够有效地融合多模态、多视角和多时序信息。

技术框架:MV-GMN模型主要由一系列MV-GMN块组成。每个MV-GMN块包含两个主要模块:1) 双向状态空间块(Bidirectional State Space Block):用于处理时序信息,并引入了视角优先和时间优先等扫描策略。2) GCN模块:用于聚合来自不同视角的特征,利用基于规则和KNN的方法构建图网络。整个模型通过堆叠多个MV-GMN块,逐步提取和融合多视角动作特征。

关键创新:MV-GMN的关键创新在于将状态空间模型(特别是Mamba架构)与图卷积网络相结合,提出了一种新的多视角动作识别框架。双向状态空间块的设计,以及视角优先和时间优先扫描策略的引入,使得模型能够更灵活地处理多视角时序数据。此外,GCN模块利用规则和KNN方法构建图,能够有效地聚合来自不同视角的特征。

关键设计:双向状态空间块采用了四种扫描策略,包括视角优先和时间优先的方法,以适应不同的数据模式。GCN模块使用基于规则和KNN的方法构建图网络,规则方法可能基于预定义的视角关系,而KNN方法则根据特征相似性动态构建图。具体的参数设置(如状态空间模型的隐藏状态维度、GCN的卷积核大小等)和损失函数(如交叉熵损失)在论文中可能有所描述,但摘要中未明确提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MV-GMN在NTU RGB+D 120数据集上取得了显著的性能提升,在跨主体和跨视角场景中分别达到了97.3%和96.7%的准确率。该模型超越了基于Transformer的基线方法,同时保持了线性推理复杂度,表明其在计算效率和识别精度方面都具有优势。

🎯 应用场景

MV-GMN模型在视频监控、人机交互、智能家居、运动分析等领域具有广泛的应用前景。它可以用于识别异常行为、控制智能设备、提供运动指导等。由于其计算复杂度较低,更易于部署在资源受限的边缘设备上,例如智能摄像头、移动机器人等。

📄 摘要(原文)

Recent advancements in multi-view action recognition have largely relied on Transformer-based models. While effective and adaptable, these models often require substantial computational resources, especially in scenarios with multiple views and multiple temporal sequences. Addressing this limitation, this paper introduces the MV-GMN model, a state-space model specifically designed to efficiently aggregate multi-modal data (RGB and skeleton), multi-view perspectives, and multi-temporal information for action recognition with reduced computational complexity. The MV-GMN model employs an innovative Multi-View Graph Mamba network comprising a series of MV-GMN blocks. Each block includes a proposed Bidirectional State Space Block and a GCN module. The Bidirectional State Space Block introduces four scanning strategies, including view-prioritized and time-prioritized approaches. The GCN module leverages rule-based and KNN-based methods to construct the graph network, effectively integrating features from different viewpoints and temporal instances. Demonstrating its efficacy, MV-GMN outperforms the state-of-the-arts on several datasets, achieving notable accuracies of 97.3\% and 96.7\% on the NTU RGB+D 120 dataset in cross-subject and cross-view scenarios, respectively. MV-GMN also surpasses Transformer-based baselines while requiring only linear inference complexity, underscoring the model's ability to reduce computational load and enhance the scalability and applicability of multi-view action recognition technologies.