AtomicMotion: Learning Human Motion From Different Human Parts
作者: Runzhen Liu, Chuhua Xian, Fa-Ting Hong
分类: cs.CV
发布日期: 2026-05-21
💡 一句话要点
AtomicMotion:通过解耦人体部位学习人体运动,提升AR/VR沉浸式体验。
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体运动重建 AR/VR 运动学注意力 身体部位解耦 姿态估计
📋 核心要点
- 现有方法将人体视为整体,忽略了精细的“原子意图”和固有的结构拓扑,导致重建误差累积和关节运动不自然。
- AtomicMotion通过解耦和重新整合身体动态,利用逻辑身体分割、掩码预训练和运动学注意力机制来解决上述问题。
- 在AMASS数据集上的实验表明,AtomicMotion在重建保真度和生物力学真实感方面显著优于现有基线。
📝 摘要(中文)
本文提出AtomicMotion框架,旨在解决从稀疏的头部和手部轨迹重建完整人体姿态这一AR/VR远程呈现中的基础挑战。现有方法常因将人体视为一个整体而导致误差累积和不自然的关节协调。AtomicMotion通过三个核心创新来解耦和重新整合身体动态。首先,引入逻辑身体分割方案,将骨骼分解为五个基于功能意图的独立簇,确保每个分区保留内部关节协同作用并隔离局部运动原语。其次,采用带掩码的全身体预训练策略,迫使模型内化全局骨骼拓扑和潜在运动学约束,从而实现从稀疏输入到高维姿态的鲁棒映射。最后,提出运动学注意力机制,将经典运动学树结构嵌入到注意力机制中,确保合成运动的生物合理性,克服了传统空间注意力忽略固定生理连接的局限性。在AMASS数据集上的大量评估表明,AtomicMotion显著优于现有基线,实现了更高的重建保真度和卓越的生物力学真实感。
🔬 方法详解
问题定义:论文旨在解决从稀疏的头部和手部轨迹准确重建完整人体姿态的问题,这是沉浸式AR/VR远程呈现的关键。现有方法将人体视为一个整体,忽略了人体运动的内在结构和各部分之间的复杂关系,导致误差累积和不自然的关节协调。
核心思路:论文的核心思路是将人体解耦为多个功能独立的“原子”部分,分别学习它们的运动模式,然后再将这些部分重新整合,从而更好地捕捉人体运动的细微变化和内在约束。这种解耦-重构的策略能够提高重建的准确性和真实感。
技术框架:AtomicMotion框架包含三个主要模块:1) 逻辑身体分割:将人体骨骼划分为五个基于功能意图的独立簇。2) 带掩码的全身体预训练:通过掩码部分身体信息,迫使模型学习全局骨骼拓扑和运动学约束。3) 运动学注意力机制:将经典运动学树结构嵌入到注意力机制中,确保合成运动的生物合理性。整体流程是从稀疏输入开始,经过预训练的模型编码,然后通过运动学注意力机制进行解码,最终得到完整的人体姿态。
关键创新:论文的关键创新在于运动学注意力机制,它将人体骨骼的运动学结构显式地融入到注意力机制中。传统的空间注意力机制忽略了人体固有的生理连接,而运动学注意力机制能够更好地捕捉关节之间的依赖关系,从而生成更自然、更符合生物力学原理的运动。
关键设计:逻辑身体分割方案将骨骼划分为五个簇,具体划分方式未知,需要参考论文原文。掩码预训练策略通过随机掩盖部分身体信息来增强模型的鲁棒性。运动学注意力机制的具体实现方式未知,可能涉及到将运动学树结构编码为注意力权重或偏置。损失函数的设计也未知,但可能包括重建损失和运动学约束损失。
🖼️ 关键图片
📊 实验亮点
AtomicMotion在AMASS数据集上进行了广泛的评估,实验结果表明,该方法在重建保真度和生物力学真实感方面显著优于现有基线。具体的性能数据和提升幅度未知,需要参考论文原文。但总体而言,实验结果验证了AtomicMotion框架的有效性和优越性。
🎯 应用场景
AtomicMotion在AR/VR远程呈现、虚拟化身、游戏和动画制作等领域具有广泛的应用前景。通过更准确地重建人体运动,可以提升虚拟交互的真实感和沉浸感,改善用户体验。该研究还有助于开发更智能的人机交互系统,例如,通过手势识别来控制虚拟角色。
📄 摘要(原文)
Accurately reconstructing full-body poses from sparse head and hand trajectories is a foundational challenge for immersive AR/VR telepresence. Current methods often struggle with error accumulation and unnatural joint coordination, primarily because they treat the human body as a monolithic entity, thereby failing to capture the fine-grained ``atomic intents'' embedded in subtle signal variations and overlooking the inherent structural topology. To bridge this gap, we present AtomicMotion, a framework designed to decouple and re-integrate body dynamics through three core innovations. First, we introduce a logical body partitioning scheme that decomposes the skeleton into five distinct clusters based on functional intent; this ensures that each partition preserves internal joint synergies while isolating local motion primitives. Second, to robustly map sparse inputs to high-dimensional poses, we employ a masked full-body pre-conditioning strategy during training, forcing the model to internalize global skeletal topology and latent kinematic constraints. Finally, addressing the limitations of vanilla spatial attention, which often ignores fixed physiological connectivity, we propose Kinematic Attention. By embedding the classical kinematic tree structure into the attention mechanism, we ensure biological plausibility in the synthesized motions. Extensive evaluations on the AMASS dataset demonstrate that AtomicMotion significantly outperforms existing baselines, yielding higher reconstruction fidelity and superior biomechanical realism.