Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

📄 arXiv: 2603.15016v1 📥 PDF

作者: Fangran Miao, Jian Huang, Ting Li

分类: cs.CV, stat.ML

发布日期: 2026-03-16

备注: 18 pages, 6 figures


💡 一句话要点

提出 Riemannian Motion Generation (RMG),用于解决人体运动生成中的非欧几何建模问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动生成 黎曼流形 黎曼流匹配 几何深度学习 运动表示

📋 核心要点

  1. 现有方法在欧几里得空间中学习人体运动,忽略了运动数据内在的非欧几何结构,限制了生成质量。
  2. RMG 框架将运动分解到多个流形上,利用黎曼流匹配学习运动动力学,实现几何感知的运动生成。
  3. 实验表明,RMG 在 HumanML3D 和 MotionMillion 数据集上均取得了显著的性能提升,验证了其有效性。

📝 摘要(中文)

人体运动生成通常在欧几里得空间中学习,但有效的运动遵循结构化的非欧几何。本文提出了 Riemannian Motion Generation (RMG),一个统一的框架,它在乘积流形上表示运动,并通过黎曼流匹配学习动力学。RMG 将运动分解为多个流形因子,产生具有内在归一化的无尺度表示,并使用测地线插值、切空间监督和保持流形的 ODE 积分进行训练和采样。在 HumanML3D 上,RMG 在 HumanML3D 格式中实现了最先进的 FID (0.043),并在 MotionStreamer 格式下所有报告的指标中排名第一。在 MotionMillion 上,它也超过了强大的基线(FID 5.6, R@1 0.86)。消融实验表明,紧凑的 $\mathscr{T}+\mathscr{R}$ (平移 + 旋转) 表示是最稳定和有效的,突出了几何感知建模作为高保真运动生成的实用和可扩展的途径。

🔬 方法详解

问题定义:人体运动生成任务旨在生成逼真且符合物理规律的运动序列。现有方法主要在欧几里得空间中进行学习,忽略了人体运动数据内在的非欧几何结构,例如关节角度的周期性和旋转的特殊性质。这导致生成的运动可能不自然,甚至违反物理约束。

核心思路:RMG 的核心思路是将人体运动表示为多个流形上的点,并利用黎曼流匹配学习这些流形上的运动动力学。通过在黎曼流形上进行建模,可以更好地捕捉运动数据的内在几何结构,从而生成更逼真和自然的运动。

技术框架:RMG 的整体框架包括以下几个主要模块:1) 运动表示:将人体运动分解为多个流形因子,例如平移和旋转。2) 黎曼流匹配:利用黎曼流匹配学习这些流形上的运动动力学。3) 训练:使用测地线插值、切空间监督和保持流形的 ODE 积分进行训练。4) 采样:使用训练好的模型生成新的运动序列。

关键创新:RMG 的关键创新在于:1) 提出了一种新的运动表示方法,将运动分解为多个流形因子,从而更好地捕捉运动数据的内在几何结构。2) 利用黎曼流匹配学习运动动力学,从而可以生成更逼真和自然的运动。3) 提出了一种新的训练方法,使用测地线插值、切空间监督和保持流形的 ODE 积分,从而可以更有效地训练模型。与现有方法的本质区别在于,RMG 考虑了人体运动数据内在的非欧几何结构,而现有方法则忽略了这一点。

关键设计:RMG 的关键设计包括:1) 使用 $\mathscr{T}+\mathscr{R}$ (平移 + 旋转) 表示,实验表明这种表示是最稳定和有效的。2) 使用测地线插值作为数据增强方法。3) 使用切空间监督来约束模型的输出。4) 使用保持流形的 ODE 积分来保证生成的运动始终位于流形上。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RMG 在 HumanML3D 数据集上取得了显著的性能提升,在 HumanML3D 格式中实现了最先进的 FID (0.043),并在 MotionStreamer 格式下所有报告的指标中排名第一。在 MotionMillion 数据集上,RMG 也超过了强大的基线(FID 5.6, R@1 0.86)。消融实验表明,紧凑的 $\mathscr{T}+\mathscr{R}$ (平移 + 旋转) 表示是最稳定和有效的。

🎯 应用场景

RMG 可应用于虚拟现实、游戏、动画制作、机器人控制等领域。例如,在虚拟现实中,RMG 可以生成更逼真和自然的虚拟人物运动,从而提高用户的沉浸感。在机器人控制中,RMG 可以生成更安全和高效的机器人运动轨迹,从而提高机器人的工作效率。

📄 摘要(原文)

Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact $\mathscr{T}+\mathscr{R}$ (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.