SMART: Scene-motion-aware human action recognition framework for mental disorder group

📄 arXiv: 2406.04649v1 📥 PDF

作者: Zengyuan Lai, Jiarui Yang, Songpengcheng Xia, Qi Wu, Zhen Sun, Wenxian Yu, Ling Pei

分类: cs.CV

发布日期: 2024-06-07

🔗 代码/项目: GITHUB


💡 一句话要点

针对精神障碍患者,提出场景-运动感知的行为识别框架SMART,用于智能医疗视频监控。

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 行为识别 场景感知 精神障碍 智能医疗 视频监控

📋 核心要点

  1. 现有基于视觉的行为识别方法缺乏针对精神障碍患者异常行为的专用数据集和算法,限制了其在智能医疗领域的应用。
  2. SMART框架通过场景感知模块提取人体运动轨迹和人-场景交互特征,并利用多阶段融合模块增强运动与场景信息的关联。
  3. 在MentalHAD数据集上,SMART在未见过的受试者和场景中分别取得了94.9%和93.1%的准确率,显著优于现有方法。

📝 摘要(中文)

随着物联网技术的兴起,精神障碍患者常常表现出危险的异常行为,如爬墙或撞击窗户,因此需要智能视频行为监控来实现智能医疗。然而,由于缺乏专门的算法和数据集,基于视觉的人类行为识别(HAR)技术在这些行为上的发展受到阻碍。本文创新性地构建了一个基于视觉的HAR数据集,其中包含精神障碍群体中经常发生的异常行为,并提出了一种新的场景-运动感知行为识别技术框架,名为SMART,由两个技术模块组成。首先,我们提出了一个场景感知模块,用于提取人体运动轨迹和人-场景交互特征,从而引入额外的场景信息,以补充上述行为的语义表示。其次,多阶段融合模块融合了骨骼运动、运动轨迹和人-场景交互特征,增强了骨骼运动与上述补充表示之间的语义关联,从而生成包含人体运动和场景信息的综合表示。我们提出的方法在我们自己收集的HAR数据集(MentalHAD)上得到了验证,在未见过的受试者和场景中分别实现了94.9%和93.1%的准确率,并且优于最先进的方法,分别提高了6.5%和13.2%。所展示的受试者和场景泛化能力使得SMART能够迁移到智能医疗系统中,在医疗环境中为精神障碍患者进行实际部署。代码和数据集将公开发布,以供进一步研究。

🔬 方法详解

问题定义:论文旨在解决精神障碍患者异常行为识别的问题。现有方法缺乏针对此类行为的专用数据集,且忽略了场景信息对行为理解的重要性,导致识别精度不高,泛化能力不足。

核心思路:论文的核心思路是利用场景信息增强行为识别能力。通过提取人体运动轨迹和人-场景交互特征,将场景信息融入到行为表示中,从而提高对异常行为的识别精度和泛化能力。

技术框架:SMART框架包含两个主要模块:场景感知模块和多阶段融合模块。场景感知模块负责提取人体运动轨迹和人-场景交互特征。多阶段融合模块将骨骼运动、运动轨迹和人-场景交互特征进行融合,生成综合的行为表示。整体流程是从视频中提取骨骼运动信息,然后利用场景感知模块提取场景信息,最后通过多阶段融合模块将两者融合进行行为识别。

关键创新:论文的关键创新在于提出了场景感知的行为识别方法。通过引入场景信息,弥补了传统方法仅依赖人体运动信息的不足,从而提高了对复杂场景下异常行为的识别能力。

关键设计:场景感知模块的设计是关键。具体实现细节未知,但可以推测可能使用了目标检测、场景分割等技术来提取人-场景交互特征。多阶段融合模块的具体融合策略也未知,但可能使用了注意力机制或加权融合等方法来突出重要特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SMART框架在自建的MentalHAD数据集上取得了显著的性能提升。在未见过的受试者和场景中,SMART分别达到了94.9%和93.1%的准确率,相比现有方法分别提升了6.5%和13.2%。这表明SMART具有良好的泛化能力和实际应用潜力。

🎯 应用场景

该研究成果可应用于智能医疗系统,对精神障碍患者进行实时视频监控,及时发现并预警异常行为,从而保障患者安全,减轻医护人员负担。此外,该方法也可扩展到其他需要场景感知的行为识别应用,如安防监控、智能家居等。

📄 摘要(原文)

Patients with mental disorders often exhibit risky abnormal actions, such as climbing walls or hitting windows, necessitating intelligent video behavior monitoring for smart healthcare with the rising Internet of Things (IoT) technology. However, the development of vision-based Human Action Recognition (HAR) for these actions is hindered by the lack of specialized algorithms and datasets. In this paper, we innovatively propose to build a vision-based HAR dataset including abnormal actions often occurring in the mental disorder group and then introduce a novel Scene-Motion-aware Action Recognition Technology framework, named SMART, consisting of two technical modules. First, we propose a scene perception module to extract human motion trajectory and human-scene interaction features, which introduces additional scene information for a supplementary semantic representation of the above actions. Second, the multi-stage fusion module fuses the skeleton motion, motion trajectory, and human-scene interaction features, enhancing the semantic association between the skeleton motion and the above supplementary representation, thus generating a comprehensive representation with both human motion and scene information. The effectiveness of our proposed method has been validated on our self-collected HAR dataset (MentalHAD), achieving 94.9% and 93.1% accuracy in un-seen subjects and scenes and outperforming state-of-the-art approaches by 6.5% and 13.2%, respectively. The demonstrated subject- and scene- generalizability makes it possible for SMART's migration to practical deployment in smart healthcare systems for mental disorder patients in medical settings. The code and dataset will be released publicly for further research: https://github.com/Inowlzy/SMART.git.