Improvement of Human-Object Interaction Action Recognition Using Scene Information and Multi-Task Learning Approach

📄 arXiv: 2509.09067v3 📥 PDF

作者: Hesham M. Shehata, Mohammad Abdolrahmani

分类: cs.CV

发布日期: 2025-09-11 (更新: 2025-09-16)


💡 一句话要点

提出融合场景信息的多任务学习方法,提升人与固定物体交互行为识别精度

🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人与物体交互 行为识别 图卷积网络 多任务学习 场景信息

📋 核心要点

  1. 现有GCN在人与物体交互行为识别中,缺乏对场景信息的有效利用,导致识别精度不足。
  2. 提出一种多任务学习方法,结合环境中固定物体的信息,提升人与物体交互行为识别的性能。
  3. 实验结果表明,该方法在自建数据集上,相比基线模型,准确率提升了2.75%,达到99.25%。

📝 摘要(中文)

本文提出了一种利用场景信息和多任务学习方法来改进人与物体交互行为识别性能的方案。现有的图卷积神经网络(GCN)在人体行为识别领域表现出色,但由于缺乏对场景信息的有效表示和合适的学习架构,在检测人与物体交互行为时效果不佳。为了评估该方法,作者收集了来自公共环境的真实数据,并构建了一个数据集,其中包含与固定物体交互(如ATM取票机、自助值机/退房机等)和非交互(行走和站立)的类别。实验结果表明,结合交互区域信息的多任务学习方法能够以99.25%的准确率识别所研究的交互和非交互行为,比仅使用人体骨骼姿势的基线模型提高了2.75%。

🔬 方法详解

问题定义:现有基于人体骨骼姿势的图卷积神经网络(GCN)在人与物体交互行为识别方面存在局限性,主要痛点在于缺乏对场景信息的有效建模。仅仅依赖人体骨骼信息难以区分一些细微的交互动作,例如,用户是在使用ATM还是仅仅站在ATM旁边。

核心思路:论文的核心思路是将场景中的固定物体信息融入到行为识别模型中,并采用多任务学习的方式,同时学习交互行为和非交互行为。通过引入场景信息,模型可以更好地理解人与物体之间的关系,从而提高识别精度。多任务学习则有助于模型学习到更通用的特征表示。

技术框架:整体框架包含两个主要部分:人体骨骼姿势特征提取和场景信息特征提取。人体骨骼姿势特征通过GCN提取,场景信息特征则通过某种方式(论文中未明确说明,但提到是固定物体信息)进行提取。然后,将两种特征进行融合,输入到多任务学习模块中。多任务学习模块包含两个分支,一个分支用于识别交互行为,另一个分支用于识别非交互行为。两个分支共享底层特征表示。

关键创新:该论文的关键创新在于将场景信息融入到人与物体交互行为识别中,并采用多任务学习的方式。与传统的仅依赖人体骨骼姿势的方法相比,该方法能够更好地理解人与物体之间的关系,从而提高识别精度。此外,多任务学习也有助于模型学习到更鲁棒的特征表示。

关键设计:论文中没有详细描述具体的网络结构和参数设置。但是,可以推测,GCN的结构可能采用了常见的时空图卷积网络(ST-GCN)或类似的结构。多任务学习模块可能采用了共享底层特征表示的方式,并为每个任务设置了独立的损失函数。损失函数的设计可能考虑了类别不平衡问题。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文在自建数据集上进行了实验,结果表明,结合交互区域信息的多任务学习方法能够以99.25%的准确率识别所研究的交互和非交互行为,比仅使用人体骨骼姿势的基线模型提高了2.75%。这一结果表明,引入场景信息和采用多任务学习方法能够有效提高人与物体交互行为识别的精度。

🎯 应用场景

该研究成果可应用于智能监控、智能家居、人机交互等领域。例如,在智能监控中,可以识别用户在ATM机上的异常操作;在智能家居中,可以识别用户与智能设备的交互行为;在人机交互中,可以更好地理解用户的意图。

📄 摘要(原文)

Recent graph convolutional neural networks (GCNs) have shown high performance in the field of human action recognition by using human skeleton poses. However, it fails to detect human-object interaction cases successfully due to the lack of effective representation of the scene information and appropriate learning architectures. In this context, we propose a methodology to utilize human action recognition performance by considering fixed object information in the environment and following a multi-task learning approach. In order to evaluate the proposed method, we collected real data from public environments and prepared our data set, which includes interaction classes of hands-on fixed objects (e.g., ATM ticketing machines, check-in/out machines, etc.) and non-interaction classes of walking and standing. The multi-task learning approach, along with interaction area information, succeeds in recognizing the studied interaction and non-interaction actions with an accuracy of 99.25%, outperforming the accuracy of the base model using only human skeleton poses by 2.75%.