IKMo: Image-Keyframed Motion Generation with Trajectory-Pose Conditioned Motion Diffusion Model

📄 arXiv: 2505.21146v1 📥 PDF

作者: Yang Zhao, Yan Zhang, Xubo Yang

分类: cs.GR, cs.CV

发布日期: 2025-05-27


💡 一句话要点

IKMo:基于轨迹-姿态条件运动扩散模型的图像关键帧运动生成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 运动生成 扩散模型 轨迹控制 姿态控制 图像关键帧 ControlNet MLLM 人体运动

📋 核心要点

  1. 现有方法在轨迹和姿态输入上进行全局处理,导致运动生成效果欠佳,难以保证空间和语义的准确性。
  2. IKMo通过解耦轨迹和姿态输入,并采用两阶段条件框架和运动ControlNet,提升运动生成的保真度和可控性。
  3. 实验结果表明,IKMo在HumanML3D和KIT-ML数据集上优于现有技术,用户研究也验证了MLLM预处理的有效性。

📝 摘要(中文)

本文提出了一种名为IKMo的图像关键帧运动生成方法,该方法基于扩散模型,并解耦了轨迹和姿态的输入。轨迹和姿态输入经过一个两阶段的条件框架:第一阶段,使用专门的优化模块来细化输入;第二阶段,轨迹和姿态分别通过轨迹编码器和姿态编码器并行编码。然后,运动ControlNet处理融合后的轨迹和姿态数据,引导生成具有高空间和语义保真度的运动。在HumanML3D和KIT-ML数据集上的实验结果表明,在轨迹-关键帧约束下,该方法优于现有技术。此外,还实现了基于MLLM的代理来预处理模型输入。给定用户的文本和关键帧图像,代理提取运动描述、关键帧姿态和轨迹,作为优化后的输入到运动生成模型中。包含10名参与者的用户研究表明,基于MLLM的代理预处理使生成的运动更符合用户的期望。我们认为,该方法提高了扩散模型生成运动的保真度和可控性。

🔬 方法详解

问题定义:现有基于轨迹和姿态输入的人体运动生成方法通常对这两种模态进行全局处理,忽略了它们之间的内在差异,导致生成的运动在空间和语义上不够准确,难以满足用户对运动细节和风格的精细控制需求。因此,如何有效地利用轨迹和姿态信息,生成高质量、高可控性的人体运动是一个关键问题。

核心思路:IKMo的核心思路是将轨迹和姿态信息解耦处理,分别进行优化和编码,然后通过运动ControlNet进行融合和引导,从而更好地利用这两种模态的优势。这种解耦处理允许模型更灵活地学习轨迹和姿态的独立特征,并避免全局处理可能导致的特征混淆。

技术框架:IKMo的整体框架包含以下几个主要模块:1) 输入优化模块:对轨迹和姿态输入进行初步优化,提高输入的质量。2) 轨迹编码器:将轨迹信息编码成轨迹特征向量。3) 姿态编码器:将姿态信息编码成姿态特征向量。4) 运动ControlNet:融合轨迹和姿态特征,并引导扩散模型生成最终的运动序列。整个流程首先对输入进行优化,然后分别编码轨迹和姿态,最后通过ControlNet融合信息并生成运动。

关键创新:IKMo的关键创新在于:1) 解耦的轨迹和姿态处理:将轨迹和姿态信息分开处理,允许模型更好地学习它们的独立特征。2) 两阶段条件框架:通过优化模块和编码器,逐步提取和融合轨迹和姿态信息。3) 运动ControlNet:利用ControlNet的强大控制能力,引导扩散模型生成高质量的运动序列。与现有方法相比,IKMo更注重对轨迹和姿态信息的精细化处理和融合。

关键设计:关于关键设计,论文中提到使用扩散模型作为运动生成的基础,并使用ControlNet来控制生成过程。轨迹编码器和姿态编码器的具体网络结构未知,但推测可能采用Transformer或RNN等序列模型。优化模块的具体实现方式未知,但可能涉及到一些平滑或插值算法。损失函数方面,除了扩散模型的标准损失外,可能还包含一些用于约束轨迹和姿态一致性的损失函数。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

IKMo在HumanML3D和KIT-ML数据集上取得了显著的性能提升,在轨迹-关键帧约束下,各项指标均优于现有技术。用户研究表明,通过MLLM预处理,生成的运动更符合用户的期望。这些结果表明,IKMo在运动生成质量和可控性方面都具有显著优势。

🎯 应用场景

IKMo具有广泛的应用前景,例如:动画制作、游戏开发、虚拟现实、人机交互等领域。它可以根据用户提供的图像关键帧和轨迹,自动生成逼真的人体运动,从而大大提高内容创作的效率和质量。此外,IKMo还可以用于训练机器人,使其能够模仿人类的运动行为,从而实现更自然的人机交互。

📄 摘要(原文)

Existing human motion generation methods with trajectory and pose inputs operate global processing on both modalities, leading to suboptimal outputs. In this paper, we propose IKMo, an image-keyframed motion generation method based on the diffusion model with trajectory and pose being decoupled. The trajectory and pose inputs go through a two-stage conditioning framework. In the first stage, the dedicated optimization module is applied to refine inputs. In the second stage, trajectory and pose are encoded via a Trajectory Encoder and a Pose Encoder in parallel. Then, motion with high spatial and semantic fidelity is guided by a motion ControlNet, which processes the fused trajectory and pose data. Experiment results based on HumanML3D and KIT-ML datasets demonstrate that the proposed method outperforms state-of-the-art on all metrics under trajectory-keyframe constraints. In addition, MLLM-based agents are implemented to pre-process model inputs. Given texts and keyframe images from users, the agents extract motion descriptions, keyframe poses, and trajectories as the optimized inputs into the motion generation model. We conducts a user study with 10 participants. The experiment results prove that the MLLM-based agents pre-processing makes generated motion more in line with users' expectation. We believe that the proposed method improves both the fidelity and controllability of motion generation by the diffusion model.