Text-Derived Relational Graph-Enhanced Network for Skeleton-Based Action Segmentation
作者: Haoyu Ji, Bowen Chen, Weihong Ren, Wenze Huang, Zhihao Yang, Zhiyong Wang, Honghai Liu
分类: cs.CV, cs.AI
发布日期: 2025-03-19
💡 一句话要点
提出TRG-Net,利用文本派生关系图增强骨骼动作分割,实现更精准的动作理解。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 骨骼动作分割 时序动作分割 图神经网络 大型语言模型 对比学习 时空建模 知识图谱
📋 核心要点
- 现有基于骨骼的动作分割方法忽略了关节和动作间的内在关联,限制了对人类运动的理解。
- TRG-Net利用大型语言模型生成的文本派生关系图,增强时空建模和监督,提升动作理解能力。
- 实验表明,TRG-Net在多个数据集上取得了SOTA结果,验证了其有效性和优越性。
📝 摘要(中文)
本文提出了一种文本派生关系图增强网络(TRG-Net),用于解决基于骨骼的动作时序分割(STAS)问题。现有方法通常采用时空建模来建立关节和帧之间的依赖关系,并使用one-hot编码和交叉熵损失进行帧级分类监督,但忽略了骨骼特征中关节和动作之间的内在相关性,导致对人类运动理解的局限性。TRG-Net利用大型语言模型(LLM)生成的先验图来增强建模和监督。动态时空融合建模(DSFM)方法结合文本派生关节图(TJG),通过通道和帧级别的动态自适应来有效地建模空间关系,并在时间建模过程中整合时空核心特征。绝对-相对类间监督(ARIS)方法采用动作特征和文本嵌入之间的对比学习来规范绝对类分布,并利用文本派生动作图(TAG)来捕获动作特征之间相对的类间关系。此外,提出了空间感知增强处理(SAEP)方法,该方法结合了随机关节遮挡和轴向旋转,以增强空间泛化能力。在四个公共数据集上的性能评估表明,TRG-Net取得了最先进的结果。
🔬 方法详解
问题定义:基于骨骼的动作时序分割(STAS)旨在从长且未修剪的人体骨骼运动序列中分割和识别各种动作。现有方法主要依赖时空建模,但忽略了骨骼特征中关节和动作之间的内在关联,导致模型对人类运动的理解不足,影响分割精度。
核心思路:TRG-Net的核心思路是利用大型语言模型(LLM)的先验知识,通过文本派生关系图来增强骨骼动作分割模型的建模能力和监督信号。通过引入关节和动作之间的关系信息,弥补传统方法的不足,从而更准确地理解和分割动作。
技术框架:TRG-Net主要包含三个模块:动态时空融合建模(DSFM)、绝对-相对类间监督(ARIS)和空间感知增强处理(SAEP)。DSFM利用文本派生关节图(TJG)增强空间建模,并融合时空特征进行时间建模。ARIS利用文本派生动作图(TAG)进行类间关系建模,并结合对比学习进行监督。SAEP通过数据增强提高模型的空间泛化能力。
关键创新:TRG-Net的关键创新在于利用LLM的知识来指导骨骼动作分割。具体体现在:1) 提出文本派生关节图(TJG)和文本派生动作图(TAG),将LLM的语义信息融入到模型中。2) 提出绝对-相对类间监督(ARIS),利用对比学习和动作图来增强监督信号。这些创新使得模型能够更好地理解动作之间的关系,从而提高分割精度。
关键设计:在DSFM中,TJG通过通道和帧级别的动态自适应来建模空间关系,具体实现方式未知。在ARIS中,对比学习的目标是拉近动作特征和对应文本嵌入的距离,并推远不同动作特征之间的距离。SAEP采用随机关节遮挡和轴向旋转进行数据增强,具体参数设置未知。损失函数由交叉熵损失和对比学习损失组成,具体权重比例未知。
🖼️ 关键图片
📊 实验亮点
TRG-Net在四个公开数据集上取得了state-of-the-art的结果,证明了其有效性。具体性能数据和对比基线未知,但论文强调了TRG-Net在动作分割精度上的显著提升。空间感知增强处理(SAEP)也进一步提高了模型的泛化能力。
🎯 应用场景
TRG-Net在视频监控、人机交互、运动分析、康复训练等领域具有广泛的应用前景。例如,可以用于自动识别监控视频中的异常行为,实现更自然的人机交互,分析运动员的运动姿态以提高训练效果,以及评估患者的康复进展。
📄 摘要(原文)
Skeleton-based Temporal Action Segmentation (STAS) aims to segment and recognize various actions from long, untrimmed sequences of human skeletal movements. Current STAS methods typically employ spatio-temporal modeling to establish dependencies among joints as well as frames, and utilize one-hot encoding with cross-entropy loss for frame-wise classification supervision. However, these methods overlook the intrinsic correlations among joints and actions within skeletal features, leading to a limited understanding of human movements. To address this, we propose a Text-Derived Relational Graph-Enhanced Network (TRG-Net) that leverages prior graphs generated by Large Language Models (LLM) to enhance both modeling and supervision. For modeling, the Dynamic Spatio-Temporal Fusion Modeling (DSFM) method incorporates Text-Derived Joint Graphs (TJG) with channel- and frame-level dynamic adaptation to effectively model spatial relations, while integrating spatio-temporal core features during temporal modeling. For supervision, the Absolute-Relative Inter-Class Supervision (ARIS) method employs contrastive learning between action features and text embeddings to regularize the absolute class distributions, and utilizes Text-Derived Action Graphs (TAG) to capture the relative inter-class relationships among action features. Additionally, we propose a Spatial-Aware Enhancement Processing (SAEP) method, which incorporates random joint occlusion and axial rotation to enhance spatial generalization. Performance evaluations on four public datasets demonstrate that TRG-Net achieves state-of-the-art results.