MoRAG -- Multi-Fusion Retrieval Augmented Generation for Human Motion

📄 arXiv: 2409.12140v2 📥 PDF

作者: Sai Shashank Kalakonda, Shubh Maheshwari, Ravi Kiran Sarvadevabhatla

分类: cs.CV, cs.MM

发布日期: 2024-09-18 (更新: 2024-12-10)


💡 一句话要点

MoRAG:提出一种基于多部分融合检索增强生成的人体运动生成方法。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人体运动生成 检索增强生成 运动扩散模型 多模态融合 大型语言模型 运动检索 文本到运动

📋 核心要点

  1. 现有基于文本生成人体运动的方法在处理语言表达多样性和复杂性时存在不足,检索到的运动片段可能存在语义偏差。
  2. MoRAG通过多部分融合的检索增强生成策略,利用大型语言模型纠正文本错误,并采用多部分检索提高泛化性。
  3. 实验结果表明,MoRAG可以作为即插即用模块,有效提升运动扩散模型的性能,并能为未见过的文本描述生成合理的运动。

📝 摘要(中文)

本文介绍了一种名为MoRAG的新型基于多部分融合的检索增强生成策略,用于基于文本的人体运动生成。该方法通过利用改进的运动检索过程获得的额外知识来增强运动扩散模型。通过有效地提示大型语言模型(LLM),我们解决了运动检索中的拼写错误和释义问题。我们的方法采用多部分检索策略来提高运动检索在语言空间中的泛化能力。我们通过检索到的运动的空间组合来创建多样化的样本。此外,通过利用低级的、特定部分的运动信息,我们可以为未见过的文本描述构建运动样本。实验表明,我们的框架可以作为一个即插即用模块,提高运动扩散模型的性能。代码、预训练模型和示例视频可在https://motion-rag.github.io/ 获得。

🔬 方法详解

问题定义:现有基于文本的人体运动生成方法难以应对自然语言的多样性和复杂性,容易受到检索到的运动片段的语义偏差影响,导致生成质量下降。此外,对于未见过的文本描述,现有方法的泛化能力有限。

核心思路:MoRAG的核心在于利用检索增强生成(RAG)的思想,通过检索相关的运动片段来指导运动扩散模型的生成过程。通过多部分融合,将检索到的运动片段进行空间组合,从而生成更丰富和多样化的运动。同时,利用大型语言模型(LLM)来纠正文本中的错误和释义问题,提高检索的准确性。

技术框架:MoRAG的整体框架包括以下几个主要模块:1) 文本编码:将输入的文本描述编码为向量表示。2) 运动检索:使用编码后的文本向量在运动数据库中检索相关的运动片段。采用多部分检索策略,将文本分解为多个部分,分别进行检索,然后融合检索结果。3) 运动融合:将检索到的运动片段进行空间组合,生成新的运动样本。4) 运动扩散模型:使用融合后的运动样本作为条件,指导运动扩散模型的生成过程。

关键创新:MoRAG的关键创新在于:1) 提出了一种多部分融合的检索策略,提高了运动检索在语言空间中的泛化能力。2) 利用大型语言模型(LLM)来纠正文本中的错误和释义问题,提高了检索的准确性。3) 通过空间组合检索到的运动片段,生成多样化的运动样本。

关键设计:在多部分检索中,文本被分解为多个部分(例如,主语、谓语、宾语),每个部分分别进行检索,然后使用加权平均或其他融合方法将检索结果合并。运动融合模块采用空间变换和混合技术,将检索到的运动片段进行平滑过渡和组合。运动扩散模型采用标准的扩散模型架构,并使用检索到的运动样本作为条件输入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoRAG能够有效提高运动扩散模型的性能。通过与现有方法进行对比,MoRAG在运动生成质量和多样性方面均取得了显著提升。特别是在处理未见过的文本描述时,MoRAG的泛化能力更强,能够生成更合理的运动。

🎯 应用场景

MoRAG技术可应用于虚拟现实、游戏开发、动画制作等领域,实现逼真且多样化的人体运动生成。该技术能够根据用户的文本描述,快速生成符合要求的运动动画,极大地提高了内容创作的效率和质量。未来,该技术有望应用于人机交互、智能康复等领域。

📄 摘要(原文)

We introduce MoRAG, a novel multi-part fusion based retrieval-augmented generation strategy for text-based human motion generation. The method enhances motion diffusion models by leveraging additional knowledge obtained through an improved motion retrieval process. By effectively prompting large language models (LLMs), we address spelling errors and rephrasing issues in motion retrieval. Our approach utilizes a multi-part retrieval strategy to improve the generalizability of motion retrieval across the language space. We create diverse samples through the spatial composition of the retrieved motions. Furthermore, by utilizing low-level, part-specific motion information, we can construct motion samples for unseen text descriptions. Our experiments demonstrate that our framework can serve as a plug-and-play module, improving the performance of motion diffusion models. Code, pretrained models and sample videos are available at: https://motion-rag.github.io/