InfiniMotion: Mamba Boosts Memory in Transformer for Arbitrary Long Motion Generation

📄 arXiv: 2407.10061v1 📥 PDF

作者: Zeyu Zhang, Akide Liu, Qi Chen, Feng Chen, Ian Reid, Richard Hartley, Bohan Zhuang, Hao Tang

分类: cs.CV

发布日期: 2024-07-14

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

InfiniMotion:利用Mamba增强Transformer记忆力,实现任意长度的运动生成

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 文本到运动生成 长序列建模 Transformer Mamba 自回归模型

📋 核心要点

  1. 现有文本到运动生成方法难以处理长运动序列,面临计算成本高和过渡不连贯等问题。
  2. InfiniMotion提出一种自回归框架,通过增强Transformer的记忆能力,生成任意长度的连续运动序列。
  3. 实验结果表明,InfiniMotion在FID指标上提升超过30%,并能生成长达1小时的连续运动,显著优于现有方法。

📝 摘要(中文)

文本到运动生成在电影、游戏和机器人领域具有巨大潜力,但现有方法通常侧重于短运动生成,难以有效生成长运动序列。现有方法难以将长运动序列作为单一输入处理,因为计算成本过高;将长运动序列的生成分解为较短的片段会导致不一致的过渡,并且需要插值或修复,缺乏对整个序列的建模。为了解决这些挑战,我们提出了InfiniMotion,这是一种在自回归框架内生成任意长度的连续运动序列的方法。我们通过生成大约80,000帧的连续1小时人体运动,突出了其突破性的能力。具体来说,我们引入了具有双向Mamba记忆的运动记忆Transformer,增强了Transformer的记忆能力,从而有效地处理长运动序列,而不会耗尽计算资源。值得注意的是,与之前的最先进方法相比,我们的方法在FID方面实现了超过30%的改进,并且演示长度延长了6倍,展示了长运动生成方面的显著进步。

🔬 方法详解

问题定义:现有文本到运动生成方法主要关注短运动序列,无法有效处理长运动序列的生成。直接处理长序列计算成本过高,而将长序列分割成短序列会导致过渡不连贯,缺乏整体建模能力。

核心思路:InfiniMotion的核心思路是利用Mamba架构增强Transformer的记忆能力,使其能够在自回归框架下处理任意长度的运动序列。通过引入双向Mamba记忆,模型能够有效地记住过去的信息,并将其用于生成未来的运动,从而实现连续且一致的长运动生成。

技术框架:InfiniMotion采用Motion Memory Transformer架构,该架构包含一个标准的Transformer编码器和一个改进的Transformer解码器。解码器部分的关键在于引入了Bidirectional Mamba Memory模块,该模块利用Mamba架构来处理长序列依赖关系。整个流程是:首先,文本描述通过Transformer编码器进行编码;然后,编码后的文本信息和之前的运动序列帧输入到Motion Memory Transformer解码器中,解码器利用Bidirectional Mamba Memory生成下一帧运动;这个过程以自回归的方式重复进行,从而生成任意长度的运动序列。

关键创新:InfiniMotion的关键创新在于引入了Bidirectional Mamba Memory模块。传统的Transformer在处理长序列时面临计算复杂度高和记忆能力有限的问题。Mamba架构具有线性计算复杂度,并且能够有效地捕捉长序列依赖关系。通过将Mamba集成到Transformer中,InfiniMotion能够处理更长的运动序列,并且保持较低的计算成本。双向Mamba记忆进一步增强了模型对过去和未来信息的利用,从而生成更连贯的运动。

关键设计:Bidirectional Mamba Memory模块是InfiniMotion的关键设计。该模块包含两个Mamba层,分别处理前向和后向的运动序列。前向Mamba层捕捉过去的信息,后向Mamba层捕捉未来的信息。这两个Mamba层的输出被融合在一起,用于生成下一帧运动。损失函数方面,论文可能采用了常见的运动生成损失函数,例如均方误差(MSE)或对抗损失(GAN),具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InfiniMotion在长运动生成方面取得了显著的成果。实验结果表明,与之前的最先进方法相比,InfiniMotion在FID指标上实现了超过30%的改进,并且能够生成长达1小时的连续运动,是现有方法生成长度的6倍。这些结果表明,InfiniMotion在长运动生成方面具有显著的优势。

🎯 应用场景

InfiniMotion在电影制作、游戏开发和机器人控制等领域具有广泛的应用前景。它可以用于自动生成角色动画、创建逼真的游戏场景以及控制机器人的运动。通过输入文本描述,InfiniMotion可以生成各种各样的运动序列,从而大大提高内容创作的效率和质量。此外,该技术还可以用于辅助运动康复和虚拟现实等领域。

📄 摘要(原文)

Text-to-motion generation holds potential for film, gaming, and robotics, yet current methods often prioritize short motion generation, making it challenging to produce long motion sequences effectively: (1) Current methods struggle to handle long motion sequences as a single input due to prohibitively high computational cost; (2) Breaking down the generation of long motion sequences into shorter segments can result in inconsistent transitions and requires interpolation or inpainting, which lacks entire sequence modeling. To solve these challenges, we propose InfiniMotion, a method that generates continuous motion sequences of arbitrary length within an autoregressive framework. We highlight its groundbreaking capability by generating a continuous 1-hour human motion with around 80,000 frames. Specifically, we introduce the Motion Memory Transformer with Bidirectional Mamba Memory, enhancing the transformer's memory to process long motion sequences effectively without overwhelming computational resources. Notably our method achieves over 30% improvement in FID and 6 times longer demonstration compared to previous state-of-the-art methods, showcasing significant advancements in long motion generation. See project webpage: https://steve-zeyu-zhang.github.io/InfiniMotion/