Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

📄 arXiv: 2606.07015v1 📥 PDF

作者: Ziyu Zhang, Chunyu Qiang, Xiaopeng Wang, Yuxin Guo, Kang Yin, Wenjie Tian, Jingbin Hu, Tianlun Zuo, Zhao Guo, Teng Ma, Yuzhe Liang, Chen Zhang, Lei Xie

分类: cs.SD, cs.AI

发布日期: 2026-06-05


💡 一句话要点

提出UniSinger以解决歌曲生成与歌声转换的协同问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 歌曲生成 歌声转换 多模态学习 智能音乐制作 课程学习 音色控制

📋 核心要点

  1. 现有的歌曲生成和歌声转换技术发展相对独立,缺乏有效的协同机制,导致各自的能力受限。
  2. 论文提出的UniSinger框架通过多模态扩散变换器,统一了说话人克隆和伴奏生成的任务,增强了跨任务的音色控制能力。
  3. 实验结果表明,UniSinger在歌曲生成和歌声转换任务上均达到了最先进的性能,展示了互补的优势。

📝 摘要(中文)

尽管歌曲生成和歌声转换(SVC)技术已取得显著进展,但两者长期以来发展孤立:前者缺乏零样本说话人克隆能力,而后者忽视了声乐与伴奏的协同。为此,我们提出了UniSinger,这是第一个统一说话人克隆歌曲生成与伴奏共生成SVC的端到端框架。基于多模态扩散变换器,我们构建了一个统一的说话人嵌入空间,将说话人表示从SVC转移到歌曲生成,赋予细粒度的跨任务音色控制。为缓解多任务优化冲突,我们设计了一种课程学习策略,使用任务特定的模态掩蔽来引导模型逐步掌握语义内容、声乐音色和伴奏之间的生成机制。实验结果显示在这两项任务上均实现了最先进的性能,并带来了互补效益,为智能音乐制作提供了新的可能性。

🔬 方法详解

问题定义:本论文旨在解决歌曲生成与歌声转换之间的协同不足,现有方法在说话人克隆和伴奏生成方面各自存在局限性,无法有效结合。

核心思路:UniSinger框架通过构建统一的说话人嵌入空间,将SVC中的说话人表示转移到歌曲生成中,从而实现跨任务的音色控制,提升生成效果。

技术框架:该框架基于多模态扩散变换器,主要包括说话人嵌入模块、任务特定模态掩蔽和课程学习策略,逐步引导模型掌握生成机制。

关键创新:最重要的创新在于将说话人克隆与伴奏生成任务统一在一个框架内,解决了多任务优化中的冲突问题,提升了生成的灵活性和准确性。

关键设计:在模型设计中,采用了任务特定的模态掩蔽策略和课程学习方法,以引导模型逐步学习不同任务的生成机制,优化了损失函数和网络结构以适应多模态输入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,UniSinger在歌曲生成和歌声转换任务上均达到了最先进的性能,相较于基线方法,音色控制的细粒度提升显著,具体性能数据未提供,但实验表明互补效益明显。

🎯 应用场景

该研究的潜在应用领域包括智能音乐制作、虚拟歌手开发和个性化音乐推荐等。通过实现歌曲生成与歌声转换的协同,UniSinger能够为音乐创作提供更高效的工具,推动音乐产业的创新与发展。

📄 摘要(原文)

While song generation and singing voice conversion (SVC) have evolved significantly, they have long been developed isolated: the former lacks zero-shot speaker cloning, while the latter overlooks vocal-accompaniment synergy. To bridge this gap, we propose UniSinger, the first end-to-end framework unifying speaker cloning song generation and accompaniment co-generation SVC. Building on the multimodal diffusion transformer, we construct a unified speaker embedding space transferring speaker representation from SVC to song generation, endowing fine-grained cross-task timbre control. To mitigate multi-task optimization conflicts, we design a curriculum learning strategy using task-specific modality masking to guide the model to gradually master the generative mechanisms among semantic content, vocal timbre, and accompaniment. Experiments show state-of-the-art performance on both tasks and realizes complementary benefits, offering new possibilities for intelligent music production.