Controllable Text-to-Motion Generation via Modular Body-Part Phase Control

作者: Minyue Dai, Ke Fan, Anyi Rao, Jingbo Wang, Bo Dai

分类: cs.CV

发布日期: 2026-03-20

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出模块化身体部位相位控制，实现可控的文本到动作生成。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 文本到动作生成 运动控制 身体部位控制 相位控制 模块化设计

📋 核心要点

现有文本到动作生成方法难以在修改特定身体部位的同时保持整体运动的连贯性，用户交互性差。
论文提出模块化身体部位相位控制方法，将身体部位运动解耦为可控的相位信号，实现局部编辑。
实验表明，该方法能够精确控制运动幅度、速度和时间，同时保持全局运动的连贯性。

📝 摘要（中文）

文本到动作（T2M）生成正成为动画和交互式化身的实用工具。然而，在保持整体运动连贯性的同时修改特定身体部位仍然具有挑战性。现有方法通常依赖于繁琐的高维关节约束（例如，轨迹），这阻碍了用户友好的迭代改进。为了解决这个问题，我们提出了一种模块化身体部位相位控制方法，这是一个即插即用的框架，通过紧凑的、基于标量的相位接口实现结构化的、局部化的编辑。通过将身体部位的潜在运动通道建模为由幅度、频率、相移和偏移表征的正弦相位信号，我们提取可解释的代码，捕捉特定部位的动态。然后，一个模块化的相位控制网络分支通过残差特征调制注入该信号，从而无缝地将控制与生成骨干网络分离。在基于扩散和基于流的模型上的实验表明，我们的方法提供了对运动幅度、速度和时间的可预测和精细控制。它保留了全局运动连贯性，并为可控的T2M生成提供了一种实用的范例。

🔬 方法详解

问题定义：现有文本到动作生成方法在控制特定身体部位的运动时存在困难。它们通常依赖于高维的关节约束，例如轨迹，这使得用户难以进行精细的、迭代的编辑，并且难以保证整体运动的连贯性。因此，需要一种更直观、更易于控制的方法，能够在局部修改身体部位运动的同时，保持整体动作的自然性。

核心思路：论文的核心思路是将每个身体部位的运动建模为正弦相位信号，通过控制这些相位信号的幅度、频率、相移和偏移来控制身体部位的运动。这种方法将高维的运动控制问题简化为对几个标量参数的控制，使得用户可以更直观地理解和修改运动。同时，通过相位信号的调制，可以保证局部运动修改不会破坏整体运动的连贯性。

技术框架：该方法采用一个即插即用的框架，称为模块化身体部位相位控制。该框架包含两个主要部分：1) 身体部位相位提取模块，用于将身体部位的运动信息编码为相位信号；2) 相位控制网络（Phase ControlNet），用于将相位信号注入到生成模型中，从而控制身体部位的运动。整体流程是，首先从文本描述中生成初始运动，然后提取每个身体部位的相位信号，用户可以通过修改这些相位信号来控制身体部位的运动，最后将修改后的相位信号注入到生成模型中，生成最终的运动。

关键创新：该方法最重要的技术创新点在于将身体部位的运动建模为可控的相位信号。与传统的基于轨迹的控制方法相比，这种方法更加直观、易于控制，并且能够更好地保持整体运动的连贯性。此外，该方法提出的相位控制网络可以无缝地集成到现有的文本到动作生成模型中，具有很好的通用性。

关键设计：身体部位相位提取模块使用傅里叶变换将运动数据转换到频域，然后提取每个身体部位的主要频率成分，作为相位信号的基频。相位控制网络采用残差连接的方式，将相位信号注入到生成模型的中间层，避免破坏生成模型的原有结构。损失函数包括运动重建损失和相位控制损失，用于保证生成的运动与目标运动一致，并且相位信号能够有效地控制身体部位的运动。

🖼️ 关键图片

📊 实验亮点

该方法在基于扩散和基于流的文本到动作生成模型上进行了实验，结果表明，该方法能够精确控制运动幅度、速度和时间，同时保持全局运动的连贯性。与现有方法相比，该方法在运动控制的精度和用户交互性方面都有显著提升。具体性能数据未知。

🎯 应用场景

该研究成果可应用于动画制作、虚拟化身控制、游戏角色设计等领域。通过该方法，用户可以更方便地控制虚拟角色的运动，实现更自然、更逼真的动画效果。此外，该方法还可以用于康复训练，帮助患者恢复身体的运动能力。未来，该方法有望应用于更广泛的人机交互领域，例如智能家居、智能助手等。

📄 摘要（原文）

Text-to-motion (T2M) generation is becoming a practical tool for animation and interactive avatars. However, modifying specific body parts while maintaining overall motion coherence remains challenging. Existing methods typically rely on cumbersome, high-dimensional joint constraints (e.g., trajectories), which hinder user-friendly, iterative refinement. To address this, we propose Modular Body-Part Phase Control, a plug-and-play framework enabling structured, localized editing via a compact, scalar-based phase interface. By modeling body-part latent motion channels as sinusoidal phase signals characterized by amplitude, frequency, phase shift, and offset, we extract interpretable codes that capture part-specific dynamics. A modular Phase ControlNet branch then injects this signal via residual feature modulation, seamlessly decoupling control from the generative backbone. Experiments on both diffusion- and flow-based models demonstrate that our approach provides predictable and fine-grained control over motion magnitude, speed, and timing. It preserves global motion coherence and offers a practical paradigm for controllable T2M generation. Project page: https://jixiii.github.io/bp-phase-project-page/

Controllable Text-to-Motion Generation via Modular Body-Part Phase Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理