PMG: Progressive Motion Generation via Sparse Anchor Postures Curriculum Learning

📄 arXiv: 2504.16722v1 📥 PDF

作者: Yingjie Xi, Jian Jun Zhang, Xiaosong Yang

分类: cs.CV, cs.AI

发布日期: 2025-04-23


💡 一句话要点

提出ProMoGen框架,通过稀疏锚点姿势和课程学习实现可控、高保真的人体动作生成。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 人体动作生成 运动合成 轨迹引导 锚点姿势 课程学习

📋 核心要点

  1. 现有动作生成方法在复杂动作描述、精确运动控制和个性化定制方面存在不足。
  2. ProMoGen通过解耦轨迹引导和稀疏锚点运动控制,实现对运动方向和动作细节的独立优化。
  3. SAP-CL课程学习策略逐步增加锚点数量,解决了直接从稀疏运动学习的不稳定性问题,提升了收敛效果。

📝 摘要(中文)

在计算机动画、游戏设计和人机交互中,合成符合用户意图的人体动作仍然是一个重大挑战。现有方法存在显著局限:文本方法提供高层语义指导,但难以准确描述复杂动作;基于轨迹的技术提供直观的全局运动方向,但通常无法生成精确或定制的角色运动;而锚点姿势引导的方法通常仅限于合成简单的运动模式。为了生成更可控和精确的人体动作,我们提出ProMoGen(Progressive Motion Generation),这是一个将轨迹引导与稀疏锚点运动控制相结合的新框架。全局轨迹确保空间方向和位移的一致性,而稀疏锚点运动仅提供精确的动作指导,不涉及位移。这种解耦使得能够独立地细化这两个方面,从而实现更可控、高保真和复杂的运动合成。ProMoGen在统一的训练过程中支持双重和单一控制范式。此外,我们认识到直接从稀疏运动中学习本质上是不稳定的,因此我们引入了SAP-CL(Sparse Anchor Posture Curriculum Learning),这是一种课程学习策略,逐步调整用于指导的锚点数量,从而实现更精确和稳定的收敛。大量实验表明,ProMoGen擅长合成由预定义的轨迹和任意锚点帧引导的生动和多样的运动。我们的方法无缝地将个性化运动与结构化指导相结合,在多个控制场景中显著优于最先进的方法。

🔬 方法详解

问题定义:现有的人体动作生成方法,如基于文本、轨迹或锚点姿势的方法,在可控性、精确性和复杂性方面存在局限。文本方法难以准确描述复杂动作,轨迹方法缺乏对角色运动细节的控制,锚点姿势方法则难以生成复杂的运动模式。因此,需要一种能够结合全局运动方向和局部动作细节,并能进行精确控制的动作生成方法。

核心思路:ProMoGen的核心思路是将全局轨迹引导和稀疏锚点运动控制解耦。全局轨迹负责提供整体的运动方向和位移信息,而稀疏锚点运动则负责提供精确的动作细节指导。通过这种解耦,可以独立地优化运动的全局一致性和局部精确性,从而生成更可控、高保真和复杂的运动。

技术框架:ProMoGen框架包含以下主要模块:1) 轨迹编码器:用于编码全局轨迹信息。2) 锚点姿势编码器:用于编码稀疏锚点姿势信息。3) 运动生成器:基于轨迹编码和锚点姿势编码,生成最终的运动序列。4) 鉴别器:用于区分生成的运动序列和真实的运动序列,提高生成运动的真实感。整个框架采用对抗生成网络(GAN)的结构进行训练。

关键创新:ProMoGen的关键创新在于以下两点:1) 轨迹引导和稀疏锚点运动控制的解耦,实现了对运动全局和局部特征的独立控制。2) SAP-CL课程学习策略,通过逐步增加锚点数量,解决了直接从稀疏运动学习的不稳定性问题,提高了训练的稳定性和收敛速度。与现有方法相比,ProMoGen能够生成更可控、高保真和复杂的运动,并且能够更好地适应不同的控制场景。

关键设计:SAP-CL课程学习策略的关键设计在于逐步调整用于指导的锚点数量。在训练初期,使用较少的锚点,使模型能够更容易地学习到全局的运动模式。随着训练的进行,逐步增加锚点的数量,使模型能够学习到更精细的动作细节。损失函数包括对抗损失、运动学损失和锚点损失。对抗损失用于提高生成运动的真实感,运动学损失用于保证生成运动的物理合理性,锚点损失用于约束生成运动与锚点姿势的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ProMoGen在多个控制场景中显著优于最先进的方法。具体而言,ProMoGen能够生成更逼真、更多样化的运动,并且能够更好地满足用户的控制需求。通过SAP-CL课程学习策略,ProMoGen的训练过程更加稳定,收敛速度更快。定量评估指标显示,ProMoGen在运动质量和控制精度方面均取得了显著提升。

🎯 应用场景

ProMoGen可广泛应用于计算机动画、游戏设计、虚拟现实和人机交互等领域。例如,可以用于生成游戏角色的运动动画,创建虚拟现实环境中的人物动作,以及设计更自然和流畅的人机交互界面。该研究的实际价值在于提高了人体动作生成的可控性和真实感,为相关应用提供了更强大的技术支持。未来,ProMoGen可以进一步扩展到其他类型的运动生成任务,例如动物运动生成和机器人运动规划。

📄 摘要(原文)

In computer animation, game design, and human-computer interaction, synthesizing human motion that aligns with user intent remains a significant challenge. Existing methods have notable limitations: textual approaches offer high-level semantic guidance but struggle to describe complex actions accurately; trajectory-based techniques provide intuitive global motion direction yet often fall short in generating precise or customized character movements; and anchor poses-guided methods are typically confined to synthesize only simple motion patterns. To generate more controllable and precise human motions, we propose \textbf{ProMoGen (Progressive Motion Generation)}, a novel framework that integrates trajectory guidance with sparse anchor motion control. Global trajectories ensure consistency in spatial direction and displacement, while sparse anchor motions only deliver precise action guidance without displacement. This decoupling enables independent refinement of both aspects, resulting in a more controllable, high-fidelity, and sophisticated motion synthesis. ProMoGen supports both dual and single control paradigms within a unified training process. Moreover, we recognize that direct learning from sparse motions is inherently unstable, we introduce \textbf{SAP-CL (Sparse Anchor Posture Curriculum Learning)}, a curriculum learning strategy that progressively adjusts the number of anchors used for guidance, thereby enabling more precise and stable convergence. Extensive experiments demonstrate that ProMoGen excels in synthesizing vivid and diverse motions guided by predefined trajectory and arbitrary anchor frames. Our approach seamlessly integrates personalized motion with structured guidance, significantly outperforming state-of-the-art methods across multiple control scenarios.