YuE: Scaling Open Foundation Models for Long-Form Music Generation

📄 arXiv: 2503.08638v2 📥 PDF

作者: Ruibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Zhengxuan Jiang, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo

分类: eess.AS, cs.AI, cs.MM, cs.SD

发布日期: 2025-03-11 (更新: 2025-09-15)

备注: https://github.com/multimodal-art-projection/YuE


💡 一句话要点

YuE:扩展开放的LLaMA2基础模型,实现长篇歌词到歌曲的生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 歌词到歌曲生成 长篇音乐生成 基础模型 LLaMA2 音乐理解 风格迁移 多任务学习

📋 核心要点

  1. 现有长篇音乐生成模型难以兼顾歌词对齐、音乐结构连贯性和人声旋律的吸引力,面临密集混合信号的挑战。
  2. YuE模型通过音轨解耦预测、结构化渐进条件和多任务预训练,实现了高质量的长篇歌词到歌曲的生成。
  3. 实验表明,YuE在音乐性和人声灵活性上可媲美甚至超越专有系统,并在音乐理解任务上达到或超过SOTA水平。

📝 摘要(中文)

本文介绍了YuE,一个基于LLaMA2架构的开放基础模型家族,旨在解决长篇音乐生成,特别是具有挑战性的“歌词到歌曲”问题。YuE模型扩展到数万亿的tokens,能够生成长达五分钟的音乐,同时保持歌词对齐、连贯的音乐结构以及引人入胜的带有适当伴奏的人声旋律。它通过(1)音轨解耦的下一个token预测来克服密集混合信号,(2)用于长上下文歌词对齐的结构化渐进条件,以及(3)用于收敛和泛化的多任务、多阶段预训练方案来实现这一点。此外,我们重新设计了音乐生成的上下文学习技术,从而实现通用的风格迁移(例如,将日本城市流行音乐转换为英文说唱,同时保留原始伴奏)和双向生成。通过广泛的评估,我们证明YuE在音乐性和人声灵活性方面与某些专有系统相匹配甚至超越。此外,微调YuE可以实现额外的控制并增强对尾部语言的支持。此外,除了生成之外,我们还表明YuE学习到的表示可以在音乐理解任务中表现良好,YuE在MARBLE基准测试上的结果与最先进的方法相匹配或超过。

🔬 方法详解

问题定义:论文旨在解决长篇音乐生成中,特别是“歌词到歌曲”生成任务中,现有模型难以生成高质量、长时序连贯音乐的问题。现有方法通常难以处理歌词与音乐的对齐,以及保证音乐结构的合理性和人声的吸引力,尤其是在长篇音乐中,问题更加突出。此外,现有模型在风格迁移和语言支持方面存在局限性。

核心思路:YuE的核心思路是利用大规模预训练的语言模型(LLaMA2)作为基础,通过特定的训练策略和模型结构设计,使其能够生成高质量的长篇音乐。关键在于解耦不同音轨的信号,利用结构化的条件信息来保证歌词对齐,并通过多任务学习来提升模型的泛化能力。

技术框架:YuE的整体框架基于LLaMA2,并在此基础上进行了改进。主要包含以下几个阶段:1. 预训练阶段:采用多任务、多阶段的预训练方案,利用大量的音乐数据进行训练,使模型学习到音乐的通用表示。2. 歌词对齐阶段:利用结构化的渐进条件,将歌词信息逐步融入到音乐生成过程中,保证歌词与音乐的对齐。3. 生成阶段:采用音轨解耦的下一个token预测方法,分别预测不同音轨的音乐信息,避免信号混合。4. 微调阶段:针对特定风格或语言的音乐进行微调,提升模型的生成效果。

关键创新:YuE的关键创新点在于以下几个方面:1. 音轨解耦的下一个token预测:通过将不同音轨的信号解耦,避免了信号混合,提升了生成质量。2. 结构化渐进条件:通过逐步融入歌词信息,保证了歌词与音乐的对齐。3. 多任务、多阶段预训练:通过多任务学习,提升了模型的泛化能力。4. 重新设计的上下文学习技术:实现了灵活的风格迁移和双向生成。

关键设计:YuE的关键设计包括:1. 音轨解耦:将音乐分解为多个音轨,例如人声、伴奏等,分别进行预测。2. 结构化条件:利用歌词的结构信息,例如句子、段落等,逐步融入到音乐生成过程中。3. 多任务学习:同时训练多个任务,例如音乐生成、歌词生成等,提升模型的泛化能力。4. 损失函数:采用交叉熵损失函数,优化模型的生成效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

YuE在音乐性和人声灵活性方面与某些专有系统相匹配甚至超越。在MARBLE基准测试中,YuE在音乐理解任务上的结果与最先进的方法相匹配或超过。通过微调,YuE能够实现额外的控制并增强对尾部语言的支持。这些实验结果表明,YuE具有强大的音乐生成和理解能力。

🎯 应用场景

YuE模型具有广泛的应用前景,可以用于音乐创作、音乐教育、音乐治疗等领域。它可以帮助音乐人快速生成高质量的音乐作品,也可以为音乐爱好者提供个性化的音乐体验。此外,YuE还可以应用于游戏、电影等娱乐产业,为这些产业提供更加丰富的音乐内容。未来,YuE有望成为一个强大的音乐创作工具,推动音乐产业的发展。

📄 摘要(原文)

We tackle the task of long-form music generation--particularly the challenging \textbf{lyrics-to-song} problem--by introducing YuE, a family of open foundation models based on the LLaMA2 architecture. Specifically, YuE scales to trillions of tokens and generates up to five minutes of music while maintaining lyrical alignment, coherent musical structure, and engaging vocal melodies with appropriate accompaniment. It achieves this through (1) track-decoupled next-token prediction to overcome dense mixture signals, (2) structural progressive conditioning for long-context lyrical alignment, and (3) a multitask, multiphase pre-training recipe to converge and generalize. In addition, we redesign the in-context learning technique for music generation, enabling versatile style transfer (e.g., converting Japanese city pop into an English rap while preserving the original accompaniment) and bidirectional generation. Through extensive evaluation, we demonstrate that YuE matches or even surpasses some of the proprietary systems in musicality and vocal agility. In addition, fine-tuning YuE enables additional controls and enhanced support for tail languages. Furthermore, beyond generation, we show that YuE's learned representations can perform well on music understanding tasks, where the results of YuE match or exceed state-of-the-art methods on the MARBLE benchmark. Keywords: lyrics2song, song generation, long-form, foundation model, music generation