Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

作者: Ziyu Zhang, Chunyu Qiang, Xiaopeng Wang, Yuxin Guo, Kang Yin, Wenjie Tian, Jingbin Hu, Tianlun Zuo, Zhao Guo, Teng Ma, Yuzhe Liang, Chen Zhang, Lei Xie

分类: cs.SD, cs.AI

发布日期: 2026-06-05

💡 一句话要点

提出UniSinger以解决歌曲生成与歌声转换的协同问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 歌曲生成 歌声转换 多模态学习 智能音乐制作 课程学习 音色控制

📋 核心要点

现有的歌曲生成和歌声转换技术发展相对独立，缺乏有效的协同机制，导致各自的能力受限。
论文提出的UniSinger框架通过多模态扩散变换器，统一了说话人克隆和伴奏生成的任务，增强了跨任务的音色控制能力。
实验结果表明，UniSinger在歌曲生成和歌声转换任务上均达到了最先进的性能，展示了互补的优势。

📝 摘要（中文）

尽管歌曲生成和歌声转换（SVC）技术已取得显著进展，但两者长期以来发展孤立：前者缺乏零样本说话人克隆能力，而后者忽视了声乐与伴奏的协同。为此，我们提出了UniSinger，这是第一个统一说话人克隆歌曲生成与伴奏共生成SVC的端到端框架。基于多模态扩散变换器，我们构建了一个统一的说话人嵌入空间，将说话人表示从SVC转移到歌曲生成，赋予细粒度的跨任务音色控制。为缓解多任务优化冲突，我们设计了一种课程学习策略，使用任务特定的模态掩蔽来引导模型逐步掌握语义内容、声乐音色和伴奏之间的生成机制。实验结果显示在这两项任务上均实现了最先进的性能，并带来了互补效益，为智能音乐制作提供了新的可能性。

🔬 方法详解

问题定义：本论文旨在解决歌曲生成与歌声转换之间的协同不足，现有方法在说话人克隆和伴奏生成方面各自存在局限性，无法有效结合。

核心思路：UniSinger框架通过构建统一的说话人嵌入空间，将SVC中的说话人表示转移到歌曲生成中，从而实现跨任务的音色控制，提升生成效果。

技术框架：该框架基于多模态扩散变换器，主要包括说话人嵌入模块、任务特定模态掩蔽和课程学习策略，逐步引导模型掌握生成机制。

关键创新：最重要的创新在于将说话人克隆与伴奏生成任务统一在一个框架内，解决了多任务优化中的冲突问题，提升了生成的灵活性和准确性。

关键设计：在模型设计中，采用了任务特定的模态掩蔽策略和课程学习方法，以引导模型逐步学习不同任务的生成机制，优化了损失函数和网络结构以适应多模态输入。

🖼️ 关键图片

📊 实验亮点

实验结果显示，UniSinger在歌曲生成和歌声转换任务上均达到了最先进的性能，相较于基线方法，音色控制的细粒度提升显著，具体性能数据未提供，但实验表明互补效益明显。

🎯 应用场景

该研究的潜在应用领域包括智能音乐制作、虚拟歌手开发和个性化音乐推荐等。通过实现歌曲生成与歌声转换的协同，UniSinger能够为音乐创作提供更高效的工具，推动音乐产业的创新与发展。

📄 摘要（原文）

While song generation and singing voice conversion (SVC) have evolved significantly, they have long been developed isolated: the former lacks zero-shot speaker cloning, while the latter overlooks vocal-accompaniment synergy. To bridge this gap, we propose UniSinger, the first end-to-end framework unifying speaker cloning song generation and accompaniment co-generation SVC. Building on the multimodal diffusion transformer, we construct a unified speaker embedding space transferring speaker representation from SVC to song generation, endowing fine-grained cross-task timbre control. To mitigate multi-task optimization conflicts, we design a curriculum learning strategy using task-specific modality masking to guide the model to gradually master the generative mechanisms among semantic content, vocal timbre, and accompaniment. Experiments show state-of-the-art performance on both tasks and realizes complementary benefits, offering new possibilities for intelligent music production.

Towards Unified Song Generation and Singing Voice Conversion with Accompaniment Co-Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理