Towards Open-World Human Action Segmentation Using Graph Convolutional Networks

作者: Hao Xing, Kai Zhe Boey, Gordon Cheng

分类: cs.CV, cs.RO

发布日期: 2025-07-01 (更新: 2025-12-11)

备注: 8 pages, 3 figures, accepted in IROS25, Hangzhou, China

DOI: 10.1109/IROS60139.2025.11247257

💡 一句话要点

提出基于图卷积网络的开放世界人体行为分割框架，解决未知行为的检测与分割问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱五：交互与反应 (Interaction & Reaction) 支柱八：物理动画 (Physics-based Animation)

关键词: 开放世界学习 行为分割 图卷积网络 人体行为识别 分布外检测

📋 核心要点

现有行为分割方法在封闭世界表现良好，但在开放世界中泛化能力不足，难以处理未见过的行为。
提出基于图卷积网络的框架，利用Mixup合成未知行为数据，并设计时间聚类损失区分已知和未知行为。
在两个数据集上验证了框架的有效性，在开放集分割和分布外检测上均取得了显著的性能提升。

📝 摘要（中文）

本文针对开放世界人体行为分割问题，即在存在未知行为类别的情况下进行行为分割，提出了一个结构化的框架。该框架包含三个关键创新：1) 增强型金字塔图卷积网络(EPGCN)，具有用于鲁棒时空特征上采样的新型解码器模块；2) 基于Mixup的训练方法，用于合成分布外数据，无需手动标注；3) 新型时间聚类损失，用于聚集分布内行为，同时分离分布外样本。在Bimanual Actions和2 Hands and Object (H2O)数据集上的实验结果表明，该框架在多个开放集评估指标上显著优于最先进的行为分割模型，在开放集分割(F1@50)和分布外检测性能(AUROC)方面分别实现了16.9%和34.6%的相对提升。此外，还进行了深入的消融研究，以评估每个提出的组件的影响，从而确定了开放世界行为分割的最佳框架配置。

🔬 方法详解

问题定义：现有基于学习的行为分割方法在封闭世界中表现出色，但在开放世界场景中难以泛化，即无法处理训练集中未出现过的新行为。由于人类行为的多样性，收集所有可能的行为类别进行训练是不切实际的。因此，需要一种能够检测和分割分布外行为，而无需手动标注的模型。

核心思路：本文的核心思路是通过学习区分已知行为和未知行为的特征表示，从而实现开放世界行为分割。具体来说，通过Mixup方法合成分布外数据，模拟未知行为的特征，并利用时间聚类损失将已知行为聚集在一起，同时将未知行为推开。这样，模型就能够学习到区分已知和未知行为的判别性特征。

技术框架：该框架主要包含三个模块：1) 增强型金字塔图卷积网络(EPGCN)，用于提取时空特征；2) 基于Mixup的训练模块，用于合成分布外数据；3) 时间聚类损失模块，用于优化特征表示。首先，EPGCN提取输入视频的时空特征。然后，Mixup模块将已知行为的特征进行混合，生成模拟的未知行为特征。最后，时间聚类损失将已知行为的特征聚集在一起，并将Mixup生成的未知行为特征推开。

关键创新：本文的关键创新在于：1) 提出了增强型金字塔图卷积网络(EPGCN)，该网络具有用于鲁棒时空特征上采样的新型解码器模块；2) 提出了基于Mixup的训练方法，用于合成分布外数据，无需手动标注；3) 提出了新型时间聚类损失，用于聚集分布内行为，同时分离分布外样本。与现有方法相比，本文的方法能够有效地处理开放世界行为分割问题，而无需手动标注未知行为。

关键设计：EPGCN使用金字塔结构提取多尺度时空特征，并使用新型解码器模块进行特征上采样。Mixup模块随机选择两个已知行为的特征，并按照一定的比例进行混合，生成新的特征。时间聚类损失使用余弦相似度作为距离度量，将已知行为的特征聚集在一起，并将Mixup生成的未知行为特征推开。损失函数的具体形式为：L = L_cluster + λ * L_separation，其中L_cluster是聚类损失，L_separation是分离损失，λ是平衡系数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架在Bimanual Actions和2 Hands and Object (H2O)数据集上显著优于最先进的行为分割模型。在开放集分割(F1@50)和分布外检测性能(AUROC)方面分别实现了16.9%和34.6%的相对提升。消融研究表明，EPGCN、Mixup和时间聚类损失均对性能提升有贡献。

🎯 应用场景

该研究成果可应用于辅助机器人、医疗保健和自动驾驶系统等领域。例如，在辅助机器人中，可以帮助机器人识别用户正在执行的动作，并提供相应的帮助。在医疗保健中，可以用于监测患者的日常活动，并及时发现异常行为。在自动驾驶系统中，可以用于识别行人的行为，并做出相应的决策。

📄 摘要（原文）

Human-object interaction segmentation is a fundamental task of daily activity understanding, which plays a crucial role in applications such as assistive robotics, healthcare, and autonomous systems. Most existing learning-based methods excel in closed-world action segmentation, they struggle to generalize to open-world scenarios where novel actions emerge. Collecting exhaustive action categories for training is impractical due to the dynamic diversity of human activities, necessitating models that detect and segment out-of-distribution actions without manual annotation. To address this issue, we formally define the open-world action segmentation problem and propose a structured framework for detecting and segmenting unseen actions. Our framework introduces three key innovations: 1) an Enhanced Pyramid Graph Convolutional Network (EPGCN) with a novel decoder module for robust spatiotemporal feature upsampling. 2) Mixup-based training to synthesize out-of-distribution data, eliminating reliance on manual annotations. 3) A novel Temporal Clustering loss that groups in-distribution actions while distancing out-of-distribution samples. We evaluate our framework on two challenging human-object interaction recognition datasets: Bimanual Actions and 2 Hands and Object (H2O) datasets. Experimental results demonstrate significant improvements over state-of-the-art action segmentation models across multiple open-set evaluation metrics, achieving 16.9% and 34.6% relative gains in open-set segmentation (F1@50) and out-of-distribution detection performances (AUROC), respectively. Additionally, we conduct an in-depth ablation study to assess the impact of each proposed component, identifying the optimal framework configuration for open-world action segmentation.

Towards Open-World Human Action Segmentation Using Graph Convolutional Networks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理