Dyadic Mamba: Long-term Dyadic Human Motion Synthesis
作者: Julian Tanke, Takashi Shibuya, Kengo Uchida, Koichi Saito, Yuki Mitsufuji
分类: cs.CV
发布日期: 2025-05-14
备注: CVPR 2025 HuMoGen Workshop
💡 一句话要点
Dyadic Mamba:利用状态空间模型实现长时程双人互动动作合成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 双人动作合成 长时程建模 状态空间模型 Mamba 文本驱动 动作生成 人机交互
📋 核心要点
- 现有基于Transformer的方法在短时程双人动作合成中表现良好,但受限于位置编码,难以处理长时程互动。
- Dyadic Mamba利用状态空间模型,通过简单的连接操作实现个体动作序列间的信息传递,避免了复杂的交叉注意力。
- 实验表明,Dyadic Mamba在长序列上显著优于Transformer,并提出了新的长时程动作合成评估基准。
📝 摘要(中文)
本文提出Dyadic Mamba,一种利用状态空间模型(SSM)生成任意长度高质量双人互动动作的新方法,旨在解决从文本描述生成逼真双人动作,特别是超出典型训练序列长度的长时程互动的挑战。该方法采用简单而有效的架构,通过连接促进个体动作序列之间的信息流动,无需复杂的交叉注意力机制。实验结果表明,Dyadic Mamba在标准短时程基准测试中表现出竞争性,并在长序列上显著优于基于Transformer的方法。此外,本文还提出了一个新的长时程动作合成质量评估基准,为未来研究提供标准化框架。结果表明,基于SSM的架构为解决从文本描述生成长时程双人动作合成这一难题提供了一个有希望的方向。
🔬 方法详解
问题定义:论文旨在解决从文本描述生成长时程双人互动动作的问题。现有基于Transformer的方法在处理长序列时面临挑战,主要原因是Transformer依赖于位置编码来捕捉序列中的时间信息,而位置编码的有效范围有限,导致在长序列上性能下降。此外,Transformer中的自注意力机制计算复杂度高,不适合处理长序列。
核心思路:论文的核心思路是利用状态空间模型(SSM)来建模双人互动动作序列。SSM具有线性递归结构,能够有效地捕捉序列中的长期依赖关系,并且计算复杂度较低,适合处理长序列。通过将个体动作序列连接起来,可以实现个体之间的信息传递,从而合成逼真的双人互动动作。
技术框架:Dyadic Mamba的整体架构包括文本编码器、动作解码器和状态空间模型三个主要模块。首先,文本编码器将文本描述转换为特征向量。然后,动作解码器利用状态空间模型逐步生成双人动作序列。具体来说,每个个体对应一个状态空间模型,两个状态空间模型的输入通过连接操作进行融合,从而实现个体之间的信息传递。整个过程是自回归的,即每一步的输出作为下一步的输入。
关键创新:最重要的技术创新点在于使用状态空间模型来建模双人互动动作序列,并采用简单的连接操作来实现个体之间的信息传递。与现有基于Transformer的方法相比,Dyadic Mamba能够更好地捕捉长序列中的长期依赖关系,并且计算复杂度更低。此外,论文还提出了一个新的长时程动作合成质量评估基准,为未来研究提供了一个标准化的评估框架。
关键设计:论文中状态空间模型采用Mamba架构,这是一种选择性状态空间模型,能够根据输入动态地调整模型的参数。损失函数采用均方误差(MSE)损失,用于衡量生成动作与真实动作之间的差异。在训练过程中,采用Adam优化器进行优化,学习率设置为0.0001,batch size设置为32。
🖼️ 关键图片
📊 实验亮点
Dyadic Mamba在长时程双人动作合成任务上显著优于基于Transformer的方法。在自建的长时程数据集上,Dyadic Mamba的FID指标比Transformer降低了约20%,表明生成的动作更加逼真。此外,Dyadic Mamba在标准短时程数据集上也能达到与Transformer相当的性能,证明了其通用性。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,例如,可以根据文本描述自动生成虚拟人物的互动动画,提高内容创作效率和质量。此外,该技术还可用于人机交互领域,例如,机器人可以根据人类的指令进行双人协作任务,提升人机协作的自然性和流畅性。未来,该技术有望应用于更广泛的领域,例如社交媒体、教育等。
📄 摘要(原文)
Generating realistic dyadic human motion from text descriptions presents significant challenges, particularly for extended interactions that exceed typical training sequence lengths. While recent transformer-based approaches have shown promising results for short-term dyadic motion synthesis, they struggle with longer sequences due to inherent limitations in positional encoding schemes. In this paper, we introduce Dyadic Mamba, a novel approach that leverages State-Space Models (SSMs) to generate high-quality dyadic human motion of arbitrary length. Our method employs a simple yet effective architecture that facilitates information flow between individual motion sequences through concatenation, eliminating the need for complex cross-attention mechanisms. We demonstrate that Dyadic Mamba achieves competitive performance on standard short-term benchmarks while significantly outperforming transformer-based approaches on longer sequences. Additionally, we propose a new benchmark for evaluating long-term motion synthesis quality, providing a standardized framework for future research. Our results demonstrate that SSM-based architectures offer a promising direction for addressing the challenging task of long-term dyadic human motion synthesis from text descriptions.