KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals

作者: Shuting Zhao, Zeyu Xiao, Xinrong Chen

分类: cs.CV, cs.AI

发布日期: 2025-12-18

备注: Accepted by AAAI 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

KineST：一种基于运动学引导的时空状态空间模型，用于从稀疏信号中进行人体运动跟踪

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人体运动跟踪 状态空间模型 运动学引导 时空建模 AR/VR 姿势重建

📋 核心要点

现有基于稀疏信号的全身运动跟踪方法，在准确性、时间连贯性和计算效率之间难以取得平衡。
KineST通过运动学引导的双向扫描和混合时空表示学习，有效提取时空依赖性，并整合局部和全局姿势感知。
实验结果表明，KineST在轻量级框架下，实现了更高的准确性和更好的时间一致性。

📝 摘要（中文）

全身运动跟踪在AR/VR应用中至关重要，它连接了物理交互和虚拟交互。然而，基于头戴式显示器获取的稀疏信号重建逼真且多样化的全身姿势极具挑战性。现有的姿势重建方法通常计算成本高昂，或者依赖于分别建模空间和时间依赖性，难以平衡准确性、时间连贯性和效率。为了解决这个问题，我们提出了一种新颖的运动学引导的状态空间模型KineST，它有效地提取时空依赖性，同时整合局部和全局姿势感知。其创新之处在于两个核心思想。首先，为了更好地捕捉复杂的关节关系，我们将状态空间对偶框架内的扫描策略重新定义为运动学引导的双向扫描，从而嵌入运动学先验。其次，采用混合时空表示学习方法来紧密耦合空间和时间上下文，从而平衡准确性和平滑性。此外，引入了几何角速度损失，对旋转变化施加物理意义上的约束，进一步提高运动稳定性。大量实验表明，KineST在轻量级框架内，在准确性和时间一致性方面均具有优越的性能。

🔬 方法详解

问题定义：论文旨在解决从AR/VR场景中头戴式显示器获取的稀疏信号重建逼真全身姿势的问题。现有方法的痛点在于，要么计算成本过高，要么无法同时有效建模空间和时间依赖性，导致重建的姿势不准确或时间上不连贯。

核心思路：论文的核心思路是利用运动学先验知识来指导时空状态空间模型的构建。通过运动学引导的双向扫描，更好地捕捉关节之间的复杂关系；通过混合时空表示学习，紧密耦合空间和时间上下文，从而在准确性和平滑性之间取得平衡。

技术框架：KineST的核心是一个状态空间模型，它利用状态空间对偶框架进行时空依赖性建模。该框架包含以下主要模块：1) 运动学引导的双向扫描模块，用于提取空间依赖性；2) 混合时空表示学习模块，用于融合空间和时间上下文；3) 几何角速度损失函数，用于约束旋转变化，提高运动稳定性。

关键创新：最重要的技术创新点在于运动学引导的双向扫描策略。传统的扫描策略通常是单向的，无法充分利用关节之间的运动学约束。KineST通过双向扫描，并根据运动学结构调整扫描顺序，从而更好地捕捉关节之间的依赖关系。此外，混合时空表示学习也是一个创新点，它能够有效地融合空间和时间信息。

关键设计：运动学引导的双向扫描策略根据人体骨骼的运动学结构，确定扫描方向和顺序。混合时空表示学习模块采用卷积神经网络和循环神经网络相结合的方式，分别提取空间和时间特征，然后进行融合。几何角速度损失函数计算预测姿势的角速度与真实角速度之间的差异，并将其作为正则化项添加到总损失函数中。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，KineST在准确性和时间一致性方面均优于现有方法。具体来说，KineST在多个公开数据集上取得了state-of-the-art的性能，并且在时间一致性指标上显著优于其他方法。此外，KineST的计算效率也很高，可以在轻量级设备上实时运行。

🎯 应用场景

KineST在AR/VR领域具有广泛的应用前景，例如虚拟化身控制、运动捕捉、游戏互动等。它可以帮助用户在虚拟环境中实现更自然、更逼真的全身运动，从而提升用户体验。此外，该研究还可以应用于康复训练、运动分析等领域，通过精确的运动跟踪和分析，为用户提供个性化的指导和反馈。

📄 摘要（原文）

Full-body motion tracking plays an essential role in AR/VR applications, bridging physical and virtual interactions. However, it is challenging to reconstruct realistic and diverse full-body poses based on sparse signals obtained by head-mounted displays, which are the main devices in AR/VR scenarios. Existing methods for pose reconstruction often incur high computational costs or rely on separately modeling spatial and temporal dependencies, making it difficult to balance accuracy, temporal coherence, and efficiency. To address this problem, we propose KineST, a novel kinematics-guided state space model, which effectively extracts spatiotemporal dependencies while integrating local and global pose perception. The innovation comes from two core ideas. Firstly, in order to better capture intricate joint relationships, the scanning strategy within the State Space Duality framework is reformulated into kinematics-guided bidirectional scanning, which embeds kinematic priors. Secondly, a mixed spatiotemporal representation learning approach is employed to tightly couple spatial and temporal contexts, balancing accuracy and smoothness. Additionally, a geometric angular velocity loss is introduced to impose physically meaningful constraints on rotational variations for further improving motion stability. Extensive experiments demonstrate that KineST has superior performance in both accuracy and temporal consistency within a lightweight framework. Project page: https://kaka-1314.github.io/KineST/

KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理