UniMuMo: Unified Text, Music and Motion Generation

📄 arXiv: 2410.04534v1 📥 PDF

作者: Han Yang, Kun Su, Yutong Zhang, Jiaben Chen, Kaizhi Qian, Gaowen Liu, Chuang Gan

分类: cs.SD, cs.CV, cs.GR, cs.LG, cs.MM, eess.AS

发布日期: 2024-10-06

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

UniMuMo:统一文本、音乐和动作生成的多模态模型

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态生成 音乐生成 动作生成 文本生成 Transformer 统一模型 跨模态学习

📋 核心要点

  1. 现有方法缺乏统一处理文本、音乐和动作多模态数据的模型,且时间同步数据不足。
  2. UniMuMo通过token化表示统一多模态数据,并采用音乐-动作并行生成方案,实现跨模态生成。
  3. 实验表明,UniMuMo在单向生成任务中表现出色,证明了其在多模态生成方面的有效性。

📝 摘要(中文)

本文介绍UniMuMo,一个统一的多模态模型,能够以任意文本、音乐和动作数据作为输入条件,生成跨越所有三种模态的输出。为了解决时间同步数据的缺乏问题,我们基于节奏模式对未配对的音乐和动作数据进行对齐,从而利用现有的大规模仅音乐和仅动作数据集。通过将音乐、动作和文本转换为基于token的表示,我们的模型通过统一的编码器-解码器Transformer架构桥接这些模态。为了支持单个框架内的多个生成任务,我们引入了几种架构改进。我们提出使用音乐密码本编码动作,将动作映射到与音乐相同的特征空间。我们引入了一种音乐-动作并行生成方案,该方案将所有音乐和动作生成任务统一到一个Transformer解码器架构中,并采用单一的音乐-动作联合生成训练任务。此外,该模型通过微调现有的预训练单模态模型进行设计,显著降低了计算需求。大量实验表明,UniMuMo在音乐、动作和文本模态的所有单向生成基准测试中都取得了有竞争力的结果。

🔬 方法详解

问题定义:现有方法难以统一处理文本、音乐和动作三种模态的数据生成任务,尤其缺乏能够灵活处理任意模态组合作为输入并生成其他模态数据的模型。此外,音乐和动作数据通常缺乏时间同步的配对,限制了联合训练的效果。

核心思路:UniMuMo的核心思路是将文本、音乐和动作都转换为token序列,从而可以使用统一的Transformer架构进行处理。通过对未配对的音乐和动作数据进行基于节奏的对齐,可以利用大规模的单模态数据集。此外,采用音乐-动作并行生成方案,将所有生成任务统一到一个解码器中,简化了模型结构和训练过程。

技术框架:UniMuMo采用编码器-解码器Transformer架构。编码器负责将输入的文本、音乐或动作数据编码成统一的特征表示。解码器则根据编码后的特征生成目标模态的数据。为了实现音乐和动作的联合生成,模型引入了音乐密码本,将动作数据映射到与音乐相同的特征空间。整个框架通过微调预训练的单模态模型进行初始化,以减少训练时间和计算资源。

关键创新:UniMuMo的关键创新在于其统一的多模态处理框架,能够灵活地处理任意模态组合的输入和输出。音乐-动作并行生成方案简化了模型结构,提高了生成效率。使用音乐密码本编码动作,实现了跨模态特征空间的对齐。

关键设计:模型使用Transformer架构,具体参数设置未知。音乐密码本的设计细节未知,但其目的是将动作数据映射到与音乐数据相同的特征空间。损失函数的设计目标是优化音乐-动作的联合生成,具体形式未知。模型通过微调预训练的单模态模型进行初始化,例如预训练的文本模型、音乐模型和动作模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniMuMo在音乐、动作和文本模态的单向生成任务中取得了有竞争力的结果。具体性能数据和对比基线在论文中给出,并在项目主页上提供。通过统一的多模态处理框架和音乐-动作并行生成方案,UniMuMo在多个生成任务上都表现出了良好的性能。

🎯 应用场景

UniMuMo具有广泛的应用前景,例如可以用于自动生成音乐舞蹈、根据文本描述生成音乐或舞蹈、以及辅助音乐创作和舞蹈编排。该模型还可以应用于虚拟现实、游戏开发等领域,为用户提供更加丰富和个性化的多媒体体验。未来的研究可以探索更复杂的多模态交互和更逼真的生成效果。

📄 摘要(原文)

We introduce UniMuMo, a unified multimodal model capable of taking arbitrary text, music, and motion data as input conditions to generate outputs across all three modalities. To address the lack of time-synchronized data, we align unpaired music and motion data based on rhythmic patterns to leverage existing large-scale music-only and motion-only datasets. By converting music, motion, and text into token-based representation, our model bridges these modalities through a unified encoder-decoder transformer architecture. To support multiple generation tasks within a single framework, we introduce several architectural improvements. We propose encoding motion with a music codebook, mapping motion into the same feature space as music. We introduce a music-motion parallel generation scheme that unifies all music and motion generation tasks into a single transformer decoder architecture with a single training task of music-motion joint generation. Moreover, the model is designed by fine-tuning existing pre-trained single-modality models, significantly reducing computational demands. Extensive experiments demonstrate that UniMuMo achieves competitive results on all unidirectional generation benchmarks across music, motion, and text modalities. Quantitative results are available in the \href{https://hanyangclarence.github.io/unimumo_demo/}{project page}.