Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

作者: Fangran Miao, Jian Huang, Ting Li

分类: cs.CV, stat.ML

发布日期: 2026-03-16

备注: 18 pages, 6 figures

💡 一句话要点

提出 Riemannian Motion Generation (RMG)，用于解决人体运动生成中的非欧几何建模问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 人体运动生成 黎曼流形 黎曼流匹配 几何深度学习 运动表示

📋 核心要点

现有方法在欧几里得空间中学习人体运动，忽略了运动数据内在的非欧几何结构，限制了生成质量。
RMG 框架将运动分解到多个流形上，利用黎曼流匹配学习运动动力学，实现几何感知的运动生成。
实验表明，RMG 在 HumanML3D 和 MotionMillion 数据集上均取得了显著的性能提升，验证了其有效性。

📝 摘要（中文）

人体运动生成通常在欧几里得空间中学习，但有效的运动遵循结构化的非欧几何。本文提出了 Riemannian Motion Generation (RMG)，一个统一的框架，它在乘积流形上表示运动，并通过黎曼流匹配学习动力学。RMG 将运动分解为多个流形因子，产生具有内在归一化的无尺度表示，并使用测地线插值、切空间监督和保持流形的 ODE 积分进行训练和采样。在 HumanML3D 上，RMG 在 HumanML3D 格式中实现了最先进的 FID (0.043)，并在 MotionStreamer 格式下所有报告的指标中排名第一。在 MotionMillion 上，它也超过了强大的基线（FID 5.6, R@1 0.86）。消融实验表明，紧凑的 $\mathscr{T}+\mathscr{R}$ (平移 + 旋转) 表示是最稳定和有效的，突出了几何感知建模作为高保真运动生成的实用和可扩展的途径。

🔬 方法详解

问题定义：人体运动生成任务旨在生成逼真且符合物理规律的运动序列。现有方法主要在欧几里得空间中进行学习，忽略了人体运动数据内在的非欧几何结构，例如关节角度的周期性和旋转的特殊性质。这导致生成的运动可能不自然，甚至违反物理约束。

核心思路：RMG 的核心思路是将人体运动表示为多个流形上的点，并利用黎曼流匹配学习这些流形上的运动动力学。通过在黎曼流形上进行建模，可以更好地捕捉运动数据的内在几何结构，从而生成更逼真和自然的运动。

技术框架：RMG 的整体框架包括以下几个主要模块：1) 运动表示：将人体运动分解为多个流形因子，例如平移和旋转。2) 黎曼流匹配：利用黎曼流匹配学习这些流形上的运动动力学。3) 训练：使用测地线插值、切空间监督和保持流形的 ODE 积分进行训练。4) 采样：使用训练好的模型生成新的运动序列。

关键创新：RMG 的关键创新在于：1) 提出了一种新的运动表示方法，将运动分解为多个流形因子，从而更好地捕捉运动数据的内在几何结构。2) 利用黎曼流匹配学习运动动力学，从而可以生成更逼真和自然的运动。3) 提出了一种新的训练方法，使用测地线插值、切空间监督和保持流形的 ODE 积分，从而可以更有效地训练模型。与现有方法的本质区别在于，RMG 考虑了人体运动数据内在的非欧几何结构，而现有方法则忽略了这一点。

关键设计：RMG 的关键设计包括：1) 使用 $\mathscr{T}+\mathscr{R}$ (平移 + 旋转) 表示，实验表明这种表示是最稳定和有效的。2) 使用测地线插值作为数据增强方法。3) 使用切空间监督来约束模型的输出。4) 使用保持流形的 ODE 积分来保证生成的运动始终位于流形上。

🖼️ 关键图片

📊 实验亮点

RMG 在 HumanML3D 数据集上取得了显著的性能提升，在 HumanML3D 格式中实现了最先进的 FID (0.043)，并在 MotionStreamer 格式下所有报告的指标中排名第一。在 MotionMillion 数据集上，RMG 也超过了强大的基线（FID 5.6, R@1 0.86）。消融实验表明，紧凑的 $\mathscr{T}+\mathscr{R}$ (平移 + 旋转) 表示是最稳定和有效的。

🎯 应用场景

RMG 可应用于虚拟现实、游戏、动画制作、机器人控制等领域。例如，在虚拟现实中，RMG 可以生成更逼真和自然的虚拟人物运动，从而提高用户的沉浸感。在机器人控制中，RMG 可以生成更安全和高效的机器人运动轨迹，从而提高机器人的工作效率。

📄 摘要（原文）

Human motion generation is often learned in Euclidean spaces, although valid motions follow structured non-Euclidean geometry. We present Riemannian Motion Generation (RMG), a unified framework that represents motion on a product manifold and learns dynamics via Riemannian flow matching. RMG factorizes motion into several manifold factors, yielding a scale-free representation with intrinsic normalization, and uses geodesic interpolation, tangent-space supervision, and manifold-preserving ODE integration for training and sampling. On HumanML3D, RMG achieves state-of-the-art FID in the HumanML3D format (0.043) and ranks first on all reported metrics under the MotionStreamer format. On MotionMillion, it also surpasses strong baselines (FID 5.6, R@1 0.86). Ablations show that the compact $\mathscr{T}+\mathscr{R}$ (translation + rotations) representation is the most stable and effective, highlighting geometry-aware modeling as a practical and scalable route to high-fidelity motion generation.

Riemannian Motion Generation: A Unified Framework for Human Motion Representation and Generation via Riemannian Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理