Deep Compositional Phase Diffusion for Long Motion Sequence Generation

作者: Ho Yin Au, Jie Chen, Junkun Jiang, Jingyu Xiang

分类: cs.MM, cs.CV

发布日期: 2025-10-16

备注: Accepted by NeurIPS 2025 (Oral)

🔗 代码/项目: GITHUB

💡 一句话要点

提出组合相位扩散方法，解决长运动序列生成中片段衔接不流畅问题。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 运动生成 组合运动 相位扩散 运动连续性 动作捕捉

📋 核心要点

现有运动生成模型在组合多个运动片段时，难以保证片段间运动动力学的连续性，导致过渡生硬。
提出组合相位扩散方法，通过SPDM和TPDM模块，在潜在运动频域中融入相邻片段的语义和相位信息。
实验表明，该方法生成的组合运动序列在语义对齐和相位过渡连续性方面均表现出色，并可用于运动插值。

📝 摘要（中文）

本文提出了一种名为组合相位扩散（Compositional Phase Diffusion）的方法，旨在解决长运动序列生成中，由多个语义对齐的运动片段组合时，片段间过渡边界处运动动力学不连续的问题。该方法利用语义相位扩散模块（SPDM）和过渡相位扩散模块（TPDM），逐步将来自相邻运动片段的语义引导和相位细节融入扩散过程。SPDM和TPDM在预训练的动作中心运动相位自编码器（ACT-PAE）构建的潜在运动频域中运行，从而学习来自变长运动片段的语义重要和过渡感知的相位信息。实验结果表明，该框架在生成与输入条件语义对齐的组合运动序列方面表现出色，同时保持了前后运动片段之间的相位过渡连续性。此外，通过在扩散过程中保持输入运动序列的相位参数固定，该方法还实现了运动插值任务，展示了其在各种应用场景中的潜力。

🔬 方法详解

问题定义：现有运动生成模型在生成单个语义明确的运动片段方面取得了显著进展。然而，当需要生成包含多个语义片段的组合运动序列时，这些模型往往难以维持片段之间的运动动力学连续性，导致过渡不自然，出现突兀的伪影。问题的核心在于如何平滑地连接不同语义的运动片段，保证整体运动的流畅性和真实感。

核心思路：本文的核心思路是在运动生成的扩散过程中，逐步融入相邻运动片段的语义信息和相位细节。通过学习片段间的过渡相位信息，模型能够更好地理解如何平滑地连接不同的运动片段，从而生成更自然的组合运动序列。这种方法借鉴了信号处理中相位对于信号连续性的重要作用，将其应用于运动生成领域。

技术框架：该方法的技术框架主要包含以下几个模块：1) 预训练的动作中心运动相位自编码器（ACT-PAE）：用于将运动序列编码到潜在的运动频域中。2) 语义相位扩散模块（SPDM）：用于在扩散过程中融入语义引导信息。3) 过渡相位扩散模块（TPDM）：用于在扩散过程中融入过渡相位信息。整个流程是，首先使用ACT-PAE将运动片段编码到潜在空间，然后在扩散过程中，SPDM和TPDM逐步将相邻片段的语义和相位信息融入到当前片段中，最终生成平滑过渡的组合运动序列。

关键创新：该方法最重要的技术创新点在于提出了SPDM和TPDM模块，并将其应用于运动生成的扩散过程。SPDM和TPDM能够在潜在的运动频域中学习语义重要和过渡感知的相位信息，从而实现平滑的片段过渡。与现有方法相比，该方法更加关注片段之间的相位关系，能够更好地保证运动的连续性和真实感。

关键设计：ACT-PAE的具体结构未知，但其作用是将运动序列映射到潜在的运动频域。SPDM和TPDM的具体网络结构也未知，但它们需要能够学习和融合来自相邻运动片段的语义和相位信息。损失函数的设计需要考虑语义对齐、相位连续性等因素。扩散过程的具体参数设置（如扩散步数、噪声schedule等）也需要仔细调整。

📊 实验亮点

实验结果表明，该方法在生成组合运动序列方面表现出色，能够生成与输入条件语义对齐，且相位过渡连续的运动序列。具体性能数据未知，但摘要强调了其在语义对齐和相位过渡连续性方面的优势。此外，该方法还成功应用于运动插值任务，展示了其在不同应用场景下的潜力。

🎯 应用场景

该研究成果可应用于游戏、动画、虚拟现实等领域，用于生成更自然、流畅的角色动画。例如，可以根据用户的指令，将不同的运动片段组合成完整的动作序列，或者对已有的运动序列进行插值，生成新的过渡动作。该技术还可以用于机器人控制领域，使机器人能够执行更复杂的连续动作。

📄 摘要（原文）

Recent research on motion generation has shown significant progress in generating semantically aligned motion with singular semantics. However, when employing these models to create composite sequences containing multiple semantically generated motion clips, they often struggle to preserve the continuity of motion dynamics at the transition boundaries between clips, resulting in awkward transitions and abrupt artifacts. To address these challenges, we present Compositional Phase Diffusion, which leverages the Semantic Phase Diffusion Module (SPDM) and Transitional Phase Diffusion Module (TPDM) to progressively incorporate semantic guidance and phase details from adjacent motion clips into the diffusion process. Specifically, SPDM and TPDM operate within the latent motion frequency domain established by the pre-trained Action-Centric Motion Phase Autoencoder (ACT-PAE). This allows them to learn semantically important and transition-aware phase information from variable-length motion clips during training. Experimental results demonstrate the competitive performance of our proposed framework in generating compositional motion sequences that align semantically with the input conditions, while preserving phase transitional continuity between preceding and succeeding motion clips. Additionally, motion inbetweening task is made possible by keeping the phase parameter of the input motion sequences fixed throughout the diffusion process, showcasing the potential for extending the proposed framework to accommodate various application scenarios. Codes are available at https://github.com/asdryau/TransPhase.

Deep Compositional Phase Diffusion for Long Motion Sequence Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册