LaDy: Lagrangian-Dynamic Informed Network for Skeleton-based Action Segmentation via Spatial-Temporal Modulation

📄 arXiv: 2603.24097v1 📥 PDF

作者: Haoyu Ji, Xueting Liu, Yu Gao, Wenze Huang, Zhihao Yang, Weihong Ren, Zhiyong Wang, Honghai Liu

分类: cs.CV

发布日期: 2026-03-25

备注: CVPR Conference

🔗 代码/项目: GITHUB


💡 一句话要点

LaDy:利用拉格朗日动力学信息的骨骼动作分割网络,通过时空调制提升性能

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 骨骼动作分割 拉格朗日动力学 时空调制 物理信息融合 深度学习

📋 核心要点

  1. 现有基于骨骼的动作分割方法忽略了人体运动的潜在物理动力学,导致动作区分性和边界定位精度不足。
  2. LaDy通过引入拉格朗日动力学,显式建模广义力和能量一致性,从而提升模型对动作动态信息的感知能力。
  3. 实验表明,LaDy在多个数据集上取得了state-of-the-art的性能,验证了物理动力学信息对动作分割的有效性。

📝 摘要(中文)

基于骨骼的动作时序分割(STAS)旨在将未裁剪的骨骼序列密集地解析为帧级别的动作类别。现有方法虽然擅长捕捉时空运动学,但忽略了控制人体运动的潜在物理动力学。这种疏忽限制了具有相似运动学但动态意图不同的动作之间的类间区分性,并阻碍了动态力分布变化的精确边界定位。为了解决这些问题,我们提出了拉格朗日动力学信息网络(LaDy),这是一个将拉格朗日动力学原理整合到分割过程中的框架。具体来说,LaDy首先从关节位置计算广义坐标,然后在物理约束下估计拉格朗日项,以显式地合成广义力。为了进一步确保物理一致性,我们的能量一致性损失强制执行功能定理,使动能变化与净力所做的功对齐。学习到的动力学然后驱动时空调制模块:在空间上,广义力与空间表示融合,以提供更具区分性的语义。在时间上,构建显著的动态信号用于时间门控,从而显著增强边界感知。在具有挑战性的数据集上的实验表明,LaDy实现了最先进的性能,验证了物理动力学在动作分割中的整合。

🔬 方法详解

问题定义:论文旨在解决基于骨骼的动作时序分割(STAS)问题。现有方法主要关注时空运动学特征,忽略了人体运动背后的物理动力学信息,导致模型难以区分运动学相似但动力学意图不同的动作,并且在动作边界定位方面存在精度不足的问题。

核心思路:论文的核心思路是将拉格朗日动力学原理引入到动作分割任务中。通过显式地建模广义力和能量变化,使模型能够学习到动作的动态信息,从而提升动作的区分性和边界定位精度。这种方法模拟了人类理解动作的方式,即不仅关注动作的外观,还关注动作背后的物理原因。

技术框架:LaDy框架主要包含以下几个模块:1) 广义坐标计算模块:从关节位置计算广义坐标,作为后续动力学建模的基础。2) 拉格朗日项估计模块:在物理约束下估计拉格朗日项,并合成广义力。3) 能量一致性损失:通过强制执行功能定理,使动能变化与净力所做的功对齐,从而保证物理一致性。4) 时空调制模块:利用学习到的动态信息,对空间和时间特征进行调制,从而提升动作的区分性和边界感知能力。

关键创新:论文最重要的创新点在于将拉格朗日动力学原理引入到基于骨骼的动作分割任务中。与现有方法相比,LaDy能够显式地建模动作的动态信息,从而提升动作的区分性和边界定位精度。此外,能量一致性损失的引入,进一步保证了模型学习到的动态信息的物理合理性。

关键设计:在广义坐标计算模块中,论文使用了关节位置作为广义坐标。在拉格朗日项估计模块中,论文使用了神经网络来学习拉格朗日项。能量一致性损失被设计为动能变化与净力所做功之间的均方误差。时空调制模块使用了门控机制,根据动态信息对空间和时间特征进行加权。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LaDy在多个具有挑战性的数据集上取得了state-of-the-art的性能。例如,在NTU RGB+D 60数据集上,LaDy的分割精度超过了现有方法,验证了物理动力学信息对动作分割的有效性。代码已开源。

🎯 应用场景

该研究成果可应用于人机交互、智能监控、康复训练等领域。例如,在人机交互中,LaDy可以帮助机器人理解人类的动作意图,从而实现更自然、更智能的交互。在智能监控中,LaDy可以用于识别异常行为,提高安全防范能力。在康复训练中,LaDy可以用于评估患者的运动能力,并提供个性化的康复方案。

📄 摘要(原文)

Skeleton-based Temporal Action Segmentation (STAS) aims to densely parse untrimmed skeletal sequences into frame-level action categories. However, existing methods, while proficient at capturing spatio-temporal kinematics, neglect the underlying physical dynamics that govern human motion. This oversight limits inter-class discriminability between actions with similar kinematics but distinct dynamic intents, and hinders precise boundary localization where dynamic force profiles shift. To address these, we propose the Lagrangian-Dynamic Informed Network (LaDy), a framework integrating principles of Lagrangian dynamics into the segmentation process. Specifically, LaDy first computes generalized coordinates from joint positions and then estimates Lagrangian terms under physical constraints to explicitly synthesize the generalized forces. To further ensure physical coherence, our Energy Consistency Loss enforces the work-energy theorem, aligning kinetic energy change with the work done by the net force. The learned dynamics then drive a Spatio-Temporal Modulation module: Spatially, generalized forces are fused with spatial representations to provide more discriminative semantics. Temporally, salient dynamic signals are constructed for temporal gating, thereby significantly enhancing boundary awareness. Experiments on challenging datasets show that LaDy achieves state-of-the-art performance, validating the integration of physical dynamics for action segmentation. Code is available at https://github.com/HaoyuJi/LaDy.