Unified Multi-Modal Interactive & Reactive 3D Motion Generation via Rectified Flow

📄 arXiv: 2509.24099v2 📥 PDF

作者: Prerit Gupta, Shourya Verma, Ananth Grama, Aniket Bera

分类: cs.CV

发布日期: 2025-09-28 (更新: 2025-10-13)

备注: Under review at ICLR 2026


💡 一句话要点

DualFlow:基于修正流的统一多模态交互式3D人体运动生成框架

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 多模态运动生成 修正流 检索增强生成 人机交互 双人运动

📋 核心要点

  1. 现有方法难以根据多种模态输入生成逼真且上下文相关的双人运动,尤其是在保证运动质量和效率方面存在挑战。
  2. DualFlow利用修正流实现确定性采样路径,并结合检索增强生成模块,以提升运动生成的效率和语义对齐。
  3. 实验结果表明,DualFlow在运动质量、响应性和效率方面均优于现有方法,并在多模态人体运动生成方面取得了显著进展。

📝 摘要(中文)

本文提出DualFlow,一个统一且高效的多模态双人运动生成框架,旨在解决计算机图形学、动画和人机交互中,根据文本、音乐和先前的运动序列等多种模态输入生成逼真、上下文相关的双人运动这一核心挑战。DualFlow利用修正流实现噪声和数据之间确定性的直线采样路径,从而减少推理时间并减轻基于扩散模型中常见的误差累积。为了增强语义基础,DualFlow采用检索增强生成(RAG)模块,该模块使用音乐特征和基于LLM的文本分解(包括空间关系、身体运动和节奏模式)来检索运动范例。我们使用对比目标进一步加强与条件信号的对齐,并引入同步损失来改善人际协调。在文本到运动、音乐到运动和多模态交互基准上的广泛评估表明,在运动质量、响应性和效率方面均获得一致的提升。DualFlow生成时间连贯且节奏同步的运动,在多模态人体运动生成方面达到了最先进水平。

🔬 方法详解

问题定义:论文旨在解决多模态条件下,生成高质量、上下文相关的双人3D人体运动的问题。现有方法,特别是基于扩散模型的方法,存在推理速度慢、误差累积等问题,难以满足实时交互的需求。此外,如何有效地融合文本、音乐等多种模态信息,并保证生成运动的语义一致性和人际协调性也是一个挑战。

核心思路:论文的核心思路是利用修正流(Rectified Flow)构建噪声和数据之间的确定性直线采样路径,从而加速推理过程并减少误差。同时,引入检索增强生成(RAG)模块,通过检索相关的运动范例来增强生成运动的语义基础。此外,设计对比损失和同步损失,分别用于加强条件信号的对齐和改善人际协调。

技术框架:DualFlow框架主要包含以下几个模块:1) 修正流运动生成器:基于修正流生成3D人体运动;2) 检索增强生成模块:利用音乐特征和LLM分解的文本信息检索运动范例;3) 对比损失:用于加强生成运动与条件信号的对齐;4) 同步损失:用于改善双人运动的人际协调。整体流程是,首先根据输入模态(文本、音乐等)和检索到的运动范例,通过修正流生成初始运动,然后通过对比损失和同步损失进行优化,最终得到高质量的双人运动序列。

关键创新:论文的关键创新在于:1) 将修正流应用于多模态人体运动生成,实现了更快的推理速度和更低的误差;2) 提出了检索增强生成模块,有效利用了外部知识来提升生成运动的语义一致性;3) 设计了对比损失和同步损失,分别用于加强条件信号的对齐和改善人际协调。与现有基于扩散模型的方法相比,DualFlow在效率和质量上都有显著提升。

关键设计:在修正流的实现中,采用了特定的网络结构来预测速度场,并使用ODE求解器进行采样。在检索增强生成模块中,使用了预训练的音乐特征提取器和LLM来提取音乐和文本的语义信息,并设计了合适的相似度度量方法来检索运动范例。对比损失和同步损失的具体形式需要根据具体的任务和数据集进行调整。例如,对比损失可以采用InfoNCE损失,同步损失可以基于骨骼关键点的距离或速度差异来设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DualFlow在多个基准测试中取得了显著的性能提升。在文本到运动任务中,DualFlow生成的运动在运动质量和语义一致性方面均优于现有方法。在音乐到运动任务中,DualFlow能够生成与音乐节奏同步的运动,并取得了state-of-the-art的结果。在多模态交互任务中,DualFlow能够根据用户的交互指令实时生成相应的运动,并保持运动的自然性和流畅性。

🎯 应用场景

DualFlow在虚拟现实、游戏、动画制作、人机交互等领域具有广泛的应用前景。例如,可以用于生成虚拟角色的舞蹈动作、模拟人与人之间的互动行为,或者根据用户的语音指令生成相应的肢体动作。该研究有助于提升虚拟环境的真实感和交互性,并为开发更智能、更自然的交互系统提供技术支持。

📄 摘要(原文)

Generating realistic, context-aware two-person motion conditioned on diverse modalities remains a central challenge in computer graphics, animation, and human-computer interaction. We introduce DualFlow, a unified and efficient framework for multi-modal two-person motion generation. DualFlow conditions 3D motion synthesis on diverse inputs, including text, music, and prior motion sequences. Leveraging rectified flow, it achieves deterministic straight-line sampling paths between noise and data, reducing inference time and mitigating error accumulation common in diffusion-based models. To enhance semantic grounding, DualFlow employs a Retrieval-Augmented Generation (RAG) module that retrieves motion exemplars using music features and LLM-based text decompositions of spatial relations, body movements, and rhythmic patterns. We use contrastive objective that further strengthens alignment with conditioning signals and introduce synchronization loss that improves inter-person coordination. Extensive evaluations across text-to-motion, music-to-motion, and multi-modal interactive benchmarks show consistent gains in motion quality, responsiveness, and efficiency. DualFlow produces temporally coherent and rhythmically synchronized motions, setting state-of-the-art in multi-modal human motion generation.