Patch as Node: Human-Centric Graph Representation Learning for Multimodal Action Recognition

📄 arXiv: 2512.21916v1 📥 PDF

作者: Zeyu Liang, Hailun Xia, Naichuan Zheng

分类: cs.CV

发布日期: 2025-12-26


💡 一句话要点

提出PAN:一种以人为中心的图表示学习框架,用于多模态动作识别。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态动作识别 图表示学习 人体行为识别 RGB-骨骼融合 图卷积网络

📋 核心要点

  1. 现有RGB和骨骼多模态动作识别方法难以克服模态异构性,未能充分利用模态间的互补潜力。
  2. PAN框架将包含人体关节的RGB图像块表示为时空图,实现RGB和骨骼模态的有效对齐和融合。
  3. PAN-Ensemble和PAN-Unified在三个数据集上均取得了SOTA性能,验证了该框架的有效性。

📝 摘要(中文)

本文提出PAN,一种用于多模态动作识别的以人为中心的图表示学习框架。该框架将包含人体关节的RGB图像块的token嵌入表示为时空图。这种以人为中心的图建模范式抑制了RGB帧中的冗余,并与基于骨骼的方法对齐,从而实现了更有效和语义连贯的多模态特征融合。由于token嵌入的采样严重依赖于2D骨骼数据,我们进一步提出了基于注意力的后校准,以最小的性能代价降低对高质量骨骼数据的依赖。为了探索PAN与基于骨骼的方法集成的潜力,我们提出了两个变体:PAN-Ensemble,它采用双路径图卷积网络,然后进行后期融合;PAN-Unified,它在单个网络中执行统一的图表示学习。在三个广泛使用的多模态动作识别数据集上,PAN-Ensemble和PAN-Unified都在各自的多模态融合设置(分离和统一建模)中实现了最先进的(SOTA)性能。

🔬 方法详解

问题定义:现有的多模态动作识别方法,特别是融合RGB和骨骼模态的方法,由于模态间的异构性,难以充分挖掘它们之间的互补信息。RGB数据包含大量的背景信息,而骨骼数据则缺乏视觉细节。如何有效地融合这两种模态的信息,是当前研究面临的挑战。

核心思路:论文的核心思路是以人为中心,将RGB图像中包含人体关节的图像块作为节点,构建时空图。这种方法能够抑制RGB图像中的冗余信息,并与基于骨骼的方法更好地对齐,从而实现更有效的多模态特征融合。

技术框架:PAN框架包含以下几个主要模块:1) RGB图像块提取:根据2D骨骼数据,提取包含人体关节的RGB图像块。2) Token嵌入:将提取的图像块转换为token嵌入。3) 图构建:将token嵌入表示为时空图,其中节点代表图像块,边代表它们之间的时空关系。4) 图卷积网络:使用图卷积网络学习图的表示。5) 注意力校准:使用注意力机制校准骨骼数据质量对模型性能的影响。论文提出了PAN-Ensemble和PAN-Unified两种变体,前者采用双路径图卷积网络进行后期融合,后者在单个网络中执行统一的图表示学习。

关键创新:PAN框架的关键创新在于提出了以人为中心的图表示学习方法,将RGB图像块作为节点构建图,从而实现了RGB和骨骼模态的有效对齐。此外,注意力校准机制降低了模型对高质量骨骼数据的依赖。

关键设计:论文中,RGB图像块的提取依赖于2D骨骼数据,具体实现方式未知。注意力校准模块的具体结构和参数设置也未知。损失函数的设计也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PAN-Ensemble和PAN-Unified在三个广泛使用的多模态动作识别数据集上均取得了SOTA性能。具体性能数据和提升幅度在论文中给出,但摘要中未明确提及。该结果表明,以人为中心的图表示学习方法能够有效地融合RGB和骨骼模态的信息,提升动作识别的准确率。

🎯 应用场景

该研究成果可应用于视频监控、人机交互、智能安防、康复训练等领域。通过准确识别和理解人类行为,可以提升这些应用场景的智能化水平,例如在视频监控中自动识别异常行为,在人机交互中实现更自然的人机交互,在康复训练中评估患者的康复进度。

📄 摘要(原文)

While human action recognition has witnessed notable achievements, multimodal methods fusing RGB and skeleton modalities still suffer from their inherent heterogeneity and fail to fully exploit the complementary potential between them. In this paper, we propose PAN, the first human-centric graph representation learning framework for multimodal action recognition, in which token embeddings of RGB patches containing human joints are represented as spatiotemporal graphs. The human-centric graph modeling paradigm suppresses the redundancy in RGB frames and aligns well with skeleton-based methods, thus enabling a more effective and semantically coherent fusion of multimodal features. Since the sampling of token embeddings heavily relies on 2D skeletal data, we further propose attention-based post calibration to reduce the dependency on high-quality skeletal data at a minimal cost interms of model performance. To explore the potential of PAN in integrating with skeleton-based methods, we present two variants: PAN-Ensemble, which employs dual-path graph convolution networks followed by late fusion, and PAN-Unified, which performs unified graph representation learning within a single network. On three widely used multimodal action recognition datasets, both PAN-Ensemble and PAN-Unified achieve state-of-the-art (SOTA) performance in their respective settings of multimodal fusion: separate and unified modeling, respectively.