Understanding Spatio-Temporal Relations in Human-Object Interaction using Pyramid Graph Convolutional Network

📄 arXiv: 2410.07912v1 📥 PDF

作者: Hao Xing, Darius Burschka

分类: cs.CV, cs.RO

发布日期: 2024-10-10

备注: 7 pages, 6 figures, IROS 2022 conference


💡 一句话要点

提出金字塔图卷积网络PGCN,用于理解人机交互中的时空关系,实现动作识别与分割。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱五:交互与反应 (Interaction & Reaction)

关键词: 人机交互 动作识别 动作分割 图卷积网络 注意力机制

📋 核心要点

  1. 现有方法难以同时识别子活动的标签和人机交互活动的时间结构。
  2. 提出金字塔图卷积网络PGCN,利用注意力图卷积网络提取人-物关系,并使用时间金字塔池化模块进行动作分割。
  3. 在Bimanual Actions和IKEA Assembly数据集上验证,显著提高了逐帧动作识别和分割的性能。

📝 摘要(中文)

本文提出了一种新颖的金字塔图卷积网络(PGCN),用于识别人机交互序列中的子活动标签和时间结构。PGCN采用金字塔编码器-解码器架构,包含基于注意力机制的图卷积网络和时间金字塔池化模块,分别用于在时间轴上对交互序列进行下采样和上采样。该系统将视频数据检测结果中人和物体的2D或3D空间关系表示为图。为了学习人-物关系,训练了一个新的注意力图卷积网络来提取图表示中的浓缩信息。为了将动作分割成子动作,提出了一种新的时间金字塔池化模块,该模块将压缩特征上采样回原始时间尺度,并逐帧分类动作。通过在Bimanual Actions和IKEA Assembly数据集上的评估,证明了该分类器显著提高了逐帧动作识别和分割的性能。

🔬 方法详解

问题定义:现有人机交互活动识别方法通常难以同时准确地识别子活动的标签以及活动的时间结构,尤其是在复杂的人机协作场景中。现有的方法可能无法充分利用人和物体之间的时空关系,导致识别精度不高。

核心思路:本文的核心思路是将人机交互活动建模成图结构,利用图卷积网络学习人和物体之间的关系,并通过金字塔结构在时间维度上进行多尺度特征提取和融合。通过注意力机制,网络可以关注到关键的人-物交互关系,从而提高识别的准确性。

技术框架:PGCN整体架构是一个编码器-解码器结构。编码器部分使用基于注意力机制的图卷积网络(Attention-based GCN)提取人和物体之间关系的特征,并使用时间金字塔池化模块(Temporal Pyramid Pooling)对时间序列进行下采样,压缩特征。解码器部分使用上采样模块将压缩特征恢复到原始时间尺度,并进行逐帧的动作分类。

关键创新:主要的创新点在于:1) 提出了金字塔图卷积网络PGCN,结合了图卷积网络和时间金字塔池化,能够有效地学习人机交互中的时空关系。2) 设计了基于注意力机制的图卷积网络,能够关注到关键的人-物交互关系。3) 提出了时间金字塔池化模块,能够有效地对时间序列进行多尺度特征提取和融合。

关键设计:在注意力机制方面,探索了空间注意力、时间注意力和通道注意力,并组合不同的上采样解码器,以测试在动作识别和分割方面的性能。具体来说,图卷积网络使用多层图卷积操作来聚合邻居节点的信息,注意力机制用于对不同节点或通道的信息进行加权。时间金字塔池化模块通过不同大小的池化窗口来提取不同时间尺度的特征。损失函数通常采用交叉熵损失函数,用于衡量预测结果与真实标签之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Bimanual Actions数据集上,PGCN的F1 micro和F1@50分数分别提高了4.3%和8.5%。实验结果表明,PGCN在人机交互动作识别和分割任务上取得了显著的性能提升,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于人机协作机器人、智能监控、智能家居等领域。例如,在人机协作机器人中,机器人可以利用该技术理解人类的动作意图,从而更好地与人类进行协作。在智能监控中,可以用于识别异常行为,提高安全性。在智能家居中,可以用于理解用户的行为习惯,提供个性化的服务。

📄 摘要(原文)

Human activities recognition is an important task for an intelligent robot, especially in the field of human-robot collaboration, it requires not only the label of sub-activities but also the temporal structure of the activity. In order to automatically recognize both the label and the temporal structure in sequence of human-object interaction, we propose a novel Pyramid Graph Convolutional Network (PGCN), which employs a pyramidal encoder-decoder architecture consisting of an attention based graph convolution network and a temporal pyramid pooling module for downsampling and upsampling interaction sequence on the temporal axis, respectively. The system represents the 2D or 3D spatial relation of human and objects from the detection results in video data as a graph. To learn the human-object relations, a new attention graph convolutional network is trained to extract condensed information from the graph representation. To segment action into sub-actions, a novel temporal pyramid pooling module is proposed, which upsamples compressed features back to the original time scale and classifies actions per frame. We explore various attention layers, namely spatial attention, temporal attention and channel attention, and combine different upsampling decoders to test the performance on action recognition and segmentation. We evaluate our model on two challenging datasets in the field of human-object interaction recognition, i.e. Bimanual Actions and IKEA Assembly datasets. We demonstrate that our classifier significantly improves both framewise action recognition and segmentation, e.g., F1 micro and F1@50 scores on Bimanual Actions dataset are improved by $4.3\%$ and $8.5\%$ respectively.