A Unified Conditional Flow for Motion Generation, Editing, and Intra-Structural Retargeting

📄 arXiv: 2604.13427v1 📥 PDF

作者: Junlin Li, Xinhao Song, Siqi Wang, Haibin Huang, Yili Zhao

分类: cs.GR, cs.AI, cs.CV

发布日期: 2026-04-15

备注: 11 pages, 7 figures


💡 一句话要点

提出统一条件流模型,解决运动生成、编辑和结构内重定向问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 运动生成 运动编辑 结构内重定向 条件流模型 流匹配

📋 核心要点

  1. 现有运动编辑和结构内重定向方法流程分离,输入和表示不兼容,缺乏统一的解决方案。
  2. 提出统一的条件流框架,将运动编辑和结构内重定向视为条件传输的实例,通过调节语义或结构信号实现。
  3. 实验表明,该模型支持文本到运动生成、零样本编辑和零样本结构内重定向,并提高了结构一致性。

📝 摘要(中文)

本文提出了一种统一的条件流框架,用于处理文本驱动的运动编辑和结构内重定向任务。传统方法通常采用分离的流程,输入和表示不兼容:编辑依赖于专门的生成控制,而重定向则推迟到几何后处理。本文将这两个任务统一为单个生成框架内的条件传输实例。利用流匹配的最新进展,证明了编辑和重定向本质上是相同的生成任务,区别仅在于推理过程中调节的条件信号(语义或结构)。通过一个联合条件于文本提示和目标骨骼结构的校正流运动模型来实现这一愿景。该架构扩展了DiT风格的Transformer,采用逐关节tokenization和显式关节自注意力来严格执行运动学依赖关系,同时采用多条件无分类器指导策略来平衡文本一致性和骨骼一致性。在SnapMoGen和多角色Mixamo子集上的实验表明,单个训练模型支持文本到运动生成、零样本编辑和零样本结构内重定向。与特定任务的基线相比,这种统一方法简化了部署并提高了结构一致性。

🔬 方法详解

问题定义:现有的文本驱动运动编辑和结构内重定向任务通常采用分离的流程,导致输入和表示不兼容。运动编辑依赖于特定的生成控制方法,而结构内重定向则需要几何后处理。这种分离的流程增加了复杂性,并且难以保证结构的一致性。因此,需要一个统一的框架来处理这些任务,并简化部署。

核心思路:本文的核心思路是将运动编辑和结构内重定向视为同一生成任务的不同实例,即条件传输问题。通过利用流匹配的最新进展,可以构建一个统一的生成模型,该模型可以根据不同的条件信号(语义或结构)来生成不同的运动。这种统一的视角简化了问题,并允许使用单个模型来处理多个任务。

技术框架:该模型基于校正流(Rectified Flow)的运动模型,并联合条件于文本提示和目标骨骼结构。整体架构扩展了DiT风格的Transformer,并采用逐关节tokenization和显式关节自注意力机制。模型包含以下主要模块:文本编码器、骨骼结构编码器、运动生成器和条件指导模块。文本编码器将文本提示转换为语义表示,骨骼结构编码器将目标骨骼结构转换为结构表示,运动生成器根据语义和结构表示生成运动序列,条件指导模块用于平衡文本一致性和骨骼一致性。

关键创新:该论文的关键创新在于提出了一个统一的条件流框架,用于处理运动生成、编辑和结构内重定向任务。与现有方法相比,该框架具有以下优势:1)统一性:将多个任务统一到一个模型中,简化了部署和维护;2)灵活性:可以通过调节不同的条件信号来生成不同的运动;3)结构一致性:通过显式关节自注意力机制来保证结构的一致性。

关键设计:在网络结构方面,采用了DiT风格的Transformer,并进行了扩展以适应运动生成任务。具体来说,采用了逐关节tokenization,将每个关节的运动信息表示为一个token。此外,还引入了显式关节自注意力机制,以强制执行运动学依赖关系。在训练方面,采用了多条件无分类器指导策略,以平衡文本一致性和骨骼一致性。损失函数包括运动损失、文本一致性损失和骨骼一致性损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在SnapMoGen和多角色Mixamo子集上取得了良好的性能。与特定任务的基线相比,该模型在文本到运动生成、零样本编辑和零样本结构内重定向任务上均取得了更好的结果,并且提高了结构一致性。具体性能数据未知,但论文强调了该方法在多个任务上的通用性和有效性。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域。例如,可以根据文本描述生成逼真的角色动画,或者将一个角色的动作重定向到具有不同骨骼结构的另一个角色上。该技术还可以用于创建个性化的运动训练程序,或辅助康复治疗。

📄 摘要(原文)

Text-driven motion editing and intra-structural retargeting, where source and target share topology but may differ in bone lengths, are traditionally handled by fragmented pipelines with incompatible inputs and representations: editing relies on specialized generative steering, while retargeting is deferred to geometric post-processing. We present a unifying perspective where both tasks are cast as instances of conditional transport within a single generative framework. By leveraging recent advances in flow matching, we demonstrate that editing and retargeting are fundamentally the same generative task, distinguished only by which conditioning signal, semantic or structural, is modulated during inference. We implement this vision via a rectified-flow motion model jointly conditioned on text prompts and target skeletal structures. Our architecture extends a DiT-style transformer with per-joint tokenization and explicit joint self-attention to strictly enforce kinematic dependencies, while a multi-condition classifier-free guidance strategy balances text adherence with skeletal conformity. Experiments on SnapMoGen and a multi-character Mixamo subset show that a single trained model supports text-to-motion generation, zero-shot editing, and zero-shot intra-structural retargeting. This unified approach simplifies deployment and improves structural consistency compared to task-specific baselines.