Skeleton2Stage: Reward-Guided Fine-Tuning for Physically Plausible Dance Generation

作者: Jidong Jia, Youjian Zhang, Huan Fu, Dacheng Tao

分类: cs.CV

发布日期: 2026-02-14

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Skeleton2Stage，通过强化学习微调扩散模型，提升舞蹈生成中物理合理性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 舞蹈生成 物理合理性 强化学习 扩散模型 人体网格 足部-地面接触 动作捕捉 奖励函数

📋 核心要点

现有舞蹈生成方法主要在骨骼层面进行，忽略了人体网格的物理约束，导致生成的舞蹈存在自穿透和足部滑动等问题。
论文提出Skeleton2Stage，利用强化学习微调扩散模型，通过设计物理奖励函数，引导模型生成更符合物理规律的舞蹈动作。
实验结果表明，该方法能够显著提升生成舞蹈的物理合理性，生成更逼真和美观的舞蹈，并在多个舞蹈数据集上验证了有效性。

📝 摘要（中文）

尽管舞蹈生成取得了进展，但大多数方法在骨骼域训练，忽略了网格级别的物理约束。因此，作为关节轨迹看起来合理的动作，在用人体网格可视化时，经常表现出身体自穿透和足部-地面接触（FGC）异常，降低了生成舞蹈的美感并限制了其现实应用。我们通过从身体网格导出基于物理的奖励，并应用强化学习微调（RLFT）来解决这种骨骼到网格的差距，从而引导扩散模型在网格可视化下朝着物理上合理的运动合成方向发展。我们的奖励设计结合了（i）模仿奖励，通过其在物理模拟器中的可模仿性来衡量运动的一般合理性（惩罚穿透和足部滑冰），以及（ii）足部-地面偏差（FGD）奖励，以及测试时的FGD指导，以更好地捕捉舞蹈中动态的足部-地面交互。然而，我们发现基于物理的奖励倾向于推动模型生成冻结运动，以减少物理异常并提高可模仿性。为了缓解这种情况，我们提出了一种反冻结奖励，以在保持物理合理性的同时保持运动动态。在多个舞蹈数据集上的实验一致表明，我们的方法可以显着提高生成运动的物理合理性，从而产生更逼真和更具美感的舞蹈。

🔬 方法详解

问题定义：现有舞蹈生成方法主要基于骨骼数据训练，缺乏对人体网格物理约束的考虑，导致生成的舞蹈在网格层面存在自穿透、足部滑动等不合理现象，影响了舞蹈的真实感和美观度。这些问题限制了生成舞蹈在虚拟现实、游戏等领域的应用。

核心思路：论文的核心思路是利用强化学习（RL）微调预训练的扩散模型，通过设计基于物理的奖励函数，引导模型生成更符合物理规律的舞蹈动作。这种方法将物理约束融入到生成过程中，从而弥补了骨骼数据和网格数据之间的差距。

技术框架：整体框架包含以下几个主要模块：1) 预训练的舞蹈生成扩散模型；2) 物理模拟器，用于评估生成动作的物理合理性；3) 奖励函数，包括模仿奖励、足部-地面偏差（FGD）奖励和反冻结奖励；4) 强化学习算法，用于微调扩散模型。流程是：首先，扩散模型生成舞蹈动作；然后，物理模拟器评估该动作的物理合理性，并计算奖励值；最后，强化学习算法根据奖励值更新扩散模型的参数，从而引导模型生成更符合物理规律的动作。

关键创新：论文的关键创新在于提出了一个综合的奖励函数，该函数不仅考虑了动作的整体物理合理性（通过模仿奖励），还特别关注了足部与地面的交互（通过FGD奖励），并引入了反冻结奖励以避免生成过于僵硬的动作。这种奖励函数的设计能够有效地引导模型生成既符合物理规律又具有动态性的舞蹈动作。

关键设计：模仿奖励基于动作在物理模拟器中的可模仿性，惩罚身体自穿透和足部滑动等现象。FGD奖励旨在更好地捕捉舞蹈中动态的足部-地面交互，通过测试时FGD指导来优化足部位置。反冻结奖励则通过鼓励模型生成具有一定速度和加速度的动作来避免生成过于静态的舞蹈。具体实现细节包括奖励函数的权重设置、强化学习算法的选择（例如，PPO）以及训练过程中的超参数调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Skeleton2Stage在多个舞蹈数据集上显著提高了生成舞蹈的物理合理性。与基线方法相比，该方法能够有效减少身体自穿透和足部滑动等问题，并生成更具动态性和美感的舞蹈动作。定量指标显示，该方法在物理合理性指标上取得了显著提升，证明了其有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏、动画制作等领域，生成更逼真、更具表现力的虚拟人物舞蹈。例如，在虚拟现实游戏中，可以利用该技术生成与玩家互动的舞蹈角色，提升游戏的沉浸感和娱乐性。此外，该技术还可以用于舞蹈教学和康复训练，为用户提供个性化的舞蹈指导和动作矫正。

📄 摘要（原文）

Despite advances in dance generation, most methods are trained in the skeletal domain and ignore mesh-level physical constraints. As a result, motions that look plausible as joint trajectories often exhibit body self-penetration and Foot-Ground Contact (FGC) anomalies when visualized with a human body mesh, reducing the aesthetic appeal of generated dances and limiting their real-world applications. We address this skeleton-to-mesh gap by deriving physics-based rewards from the body mesh and applying Reinforcement Learning Fine-Tuning (RLFT) to steer the diffusion model toward physically plausible motion synthesis under mesh visualization. Our reward design combines (i) an imitation reward that measures a motion's general plausibility by its imitability in a physical simulator (penalizing penetration and foot skating), and (ii) a Foot-Ground Deviation (FGD) reward with test-time FGD guidance to better capture the dynamic foot-ground interaction in dance. However, we find that the physics-based rewards tend to push the model to generate freezing motions for fewer physical anomalies and better imitability. To mitigate it, we propose an anti-freezing reward to preserve motion dynamics while maintaining physical plausibility. Experiments on multiple dance datasets consistently demonstrate that our method can significantly improve the physical plausibility of generated motions, yielding more realistic and aesthetically pleasing dances. The project page is available at: https://jjd1123.github.io/Skeleton2Stage/

Skeleton2Stage: Reward-Guided Fine-Tuning for Physically Plausible Dance Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理