WalkTheDog: Cross-Morphology Motion Alignment via Phase Manifolds

📄 arXiv: 2407.18946v1 📥 PDF

作者: Peizhuo Li, Sebastian Starke, Yuting Ye, Olga Sorkine-Hornung

分类: cs.CV, cs.GR

发布日期: 2024-07-11

备注: SIGGRAPH 2024. Project page: https://peizhuoli.github.io/walkthedog Video: https://www.youtube.com/watch?v=tNVO2jqeTNw

DOI: 10.1145/3641519.3657508

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于相位流形的跨形态运动对齐方法,实现不同骨骼结构角色间的动作迁移

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 运动对齐 相位流形 向量量化 自编码器 跨形态 运动迁移 运动检索

📋 核心要点

  1. 现有运动对齐方法在高维潜在空间中表示运动,存在信息稀疏和难以跨形态对齐的问题。
  2. 提出一种基于相位流形的运动表示方法,将运动分解为多个周期性分量,并使用向量量化自编码器学习共享流形。
  3. 实验表明,该方法在运动检索、迁移和风格化等任务中,能够实现不同形态角色间的有效运动对齐。

📝 摘要(中文)

本文提出了一种新的方法,用于理解运动数据集的周期性结构和语义,且不受角色形态和骨骼结构的限制。与现有方法使用过于稀疏的高维潜在空间不同,我们提出了一个由多条闭合曲线组成的相位流形,每条曲线对应一个潜在的幅度。通过我们提出的向量量化周期性自编码器,我们学习了多个人物(例如人和狗)的共享相位流形,无需任何监督。这通过利用离散结构和一个浅层网络作为瓶颈来实现,使得语义相似的运动被聚类到流形的同一条曲线上,并且同一组件内的运动通过相位变量在时间上对齐。结合改进的运动匹配框架,我们证明了该流形在运动检索、迁移和风格化等应用中具有时间和语义对齐的能力。本文的代码和预训练模型可在https://peizhuoli.github.io/walkthedog 获取。

🔬 方法详解

问题定义:现有运动对齐方法通常依赖于高维潜在空间,这些空间往往过于稀疏,难以捕捉运动的周期性和语义信息。此外,这些方法通常针对特定骨骼结构设计,难以直接应用于不同形态的角色,例如人和动物。因此,如何实现跨形态的运动对齐是一个重要的挑战。

核心思路:本文的核心思路是利用相位流形来表示运动的周期性结构。通过将运动分解为多个周期性分量,并使用相位变量来表示运动在每个周期内的位置,可以实现对运动的时间对齐。此外,通过学习一个共享的相位流形,可以使得语义相似的运动被映射到流形的同一区域,从而实现语义对齐。

技术框架:该方法的技术框架主要包括以下几个模块:1) 运动数据预处理:对运动数据进行归一化和对齐,使其具有相同的帧率和起始姿势。2) 向量量化周期性自编码器:使用一个自编码器来学习运动数据的潜在表示,并使用向量量化技术来约束潜在空间的结构。3) 相位流形构建:使用学习到的潜在表示来构建相位流形,其中每个闭合曲线对应一个潜在的幅度。4) 运动匹配和迁移:使用相位流形来实现运动匹配和迁移,例如将人的运动迁移到狗身上。

关键创新:该方法最重要的技术创新点在于提出了基于相位流形的运动表示方法。与现有方法使用高维潜在空间不同,该方法使用一个低维的相位流形来表示运动的周期性结构,从而更好地捕捉运动的语义信息。此外,该方法还提出了一个向量量化周期性自编码器,用于学习共享的相位流形,从而实现跨形态的运动对齐。

关键设计:在向量量化周期性自编码器中,使用了离散结构和浅层网络作为瓶颈,以鼓励语义相似的运动被聚类到流形的同一条曲线上。损失函数包括重构损失、量化损失和周期性损失,用于保证运动数据的重构质量、潜在空间的离散性和运动的周期性。相位流形的构建使用了主成分分析(PCA)等降维技术,以减少流形的维度并提高计算效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在运动检索、迁移和风格化等任务中取得了显著的性能提升。例如,在运动检索任务中,该方法能够更准确地检索到语义相似的运动。在运动迁移任务中,该方法能够生成更自然的运动,并且能够保持运动的风格。与现有方法相比,该方法在跨形态运动对齐方面具有明显的优势。

🎯 应用场景

该研究成果可应用于动画制作、游戏开发、虚拟现实等领域。例如,可以利用该方法将人类的舞蹈动作迁移到虚拟角色身上,或者让虚拟宠物模仿主人的运动。此外,该方法还可以用于运动分析和识别,例如识别异常运动或评估运动质量。未来,该方法有望扩展到更广泛的运动数据,例如手势识别和面部表情分析。

📄 摘要(原文)

We present a new approach for understanding the periodicity structure and semantics of motion datasets, independently of the morphology and skeletal structure of characters. Unlike existing methods using an overly sparse high-dimensional latent, we propose a phase manifold consisting of multiple closed curves, each corresponding to a latent amplitude. With our proposed vector quantized periodic autoencoder, we learn a shared phase manifold for multiple characters, such as a human and a dog, without any supervision. This is achieved by exploiting the discrete structure and a shallow network as bottlenecks, such that semantically similar motions are clustered into the same curve of the manifold, and the motions within the same component are aligned temporally by the phase variable. In combination with an improved motion matching framework, we demonstrate the manifold's capability of timing and semantics alignment in several applications, including motion retrieval, transfer and stylization. Code and pre-trained models for this paper are available at https://peizhuoli.github.io/walkthedog.