The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge

作者: Dake Guo, Jixun Yao, Xinfa Zhu, Kangxiang Xia, Zhao Guo, Ziyu Zhang, Yao Wang, Jie Liu, Lei Xie

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-10-31

备注: accepted by ISCSLP 2024

💡 一句话要点

NPU-HWC系统：基于Single-Codec和LLM的激励性语音与背景音生成

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语音合成 说话风格克隆 背景音乐生成 大型语言模型 音频生成 Single-Codec DSPGAN

📋 核心要点

现有语音合成方法难以有效解耦音色和说话风格，限制了零样本说话风格克隆的性能。
该系统提出使用Single-Codec将语音解耦为离散token，从而降低语言模型的声学建模负担。
该系统在ICAGC 2024挑战赛的Track 1和Track 2中分别取得了第二名和第一名的成绩。

📝 摘要（中文）

本文介绍了NPU-HWC系统，该系统参加了ISCSLP 2024激励性和说服力音频生成挑战赛(ICAGC)。我们的系统包含两个模块：用于Track 1的语音生成器和用于Track 2的背景音频生成器。在Track 1中，我们采用Single-Codec将语音标记化为离散token，并使用基于语言模型的方法实现零样本说话风格克隆。Single-Codec有效地解耦了token级别上的音色和说话风格，从而减轻了自回归语言模型的声学建模负担。此外，我们使用DSPGAN将16 kHz mel频谱上采样到高保真48 kHz波形。在Track 2中，我们提出了一个基于大型语言模型(LLM)的背景音频生成器。该系统生成适合场景的伴奏描述，使用Tango 2合成背景音频，并将其与Track 1系统生成的语音集成。我们的提交在Track 1和Track 2中分别获得了第二名和第一名。

🔬 方法详解

问题定义：现有语音合成方法在零样本说话风格克隆任务中，难以有效解耦音色和说话风格，导致模型需要同时学习音色和风格，增加了建模的难度，降低了生成语音的质量和风格相似度。此外，生成与语音内容相匹配的背景音乐也是一个挑战，需要理解语音内容并生成合适的场景描述。

核心思路：该论文的核心思路是利用Single-Codec将语音解耦为离散token，从而将音色和说话风格分离，降低语言模型的建模难度。对于背景音乐生成，则利用大型语言模型理解语音内容，生成场景描述，再利用音频生成模型生成背景音乐。这样可以分别处理语音和背景音乐的生成，提高生成质量和控制能力。

技术框架：该系统包含两个主要模块：语音生成器（Track 1）和背景音频生成器（Track 2）。语音生成器首先使用Single-Codec将语音转换为离散token，然后使用语言模型学习说话风格，最后使用DSPGAN将mel频谱上采样为高保真波形。背景音频生成器首先使用LLM生成场景描述，然后使用Tango 2合成背景音频，最后将背景音频与生成的语音进行混合。

关键创新：该论文的关键创新在于使用Single-Codec进行语音解耦。与传统的声码器相比，Single-Codec能够在token级别上更好地分离音色和说话风格，从而降低了语言模型的建模难度，提高了零样本说话风格克隆的性能。此外，利用LLM生成场景描述，并使用Tango 2合成背景音频，也为背景音乐生成提供了一种新的思路。

关键设计：在Track 1中，Single-Codec的具体实现细节未知，但其目标是生成能够有效分离音色和风格的离散token。语言模型采用自回归结构，用于学习说话风格的token序列。DSPGAN用于将16kHz mel频谱上采样到48kHz，提高音频质量。在Track 2中，LLM的具体选择未知，但需要具备理解语音内容并生成场景描述的能力。Tango 2用于将场景描述转换为背景音频。

🖼️ 关键图片

📊 实验亮点

该系统在ISCSLP 2024 ICAGC挑战赛中表现出色，在Track 1（语音生成）中获得第二名，在Track 2（背景音频生成）中获得第一名。这表明该系统在语音风格克隆和背景音乐生成方面具有显著的优势。具体性能数据未知，但排名结果证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于语音合成、语音克隆、智能配乐等领域。例如，可以用于生成具有特定说话风格的语音，为视频或游戏自动生成合适的背景音乐，或为有语言障碍的人提供个性化的语音辅助工具。该技术在人机交互、内容创作和辅助技术等方面具有广阔的应用前景。

📄 摘要（原文）

This paper presents the NPU-HWC system submitted to the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC). Our system consists of two modules: a speech generator for Track 1 and a background audio generator for Track 2. In Track 1, we employ Single-Codec to tokenize the speech into discrete tokens and use a language-model-based approach to achieve zero-shot speaking style cloning. The Single-Codec effectively decouples timbre and speaking style at the token level, reducing the acoustic modeling burden on the autoregressive language model. Additionally, we use DSPGAN to upsample 16 kHz mel-spectrograms to high-fidelity 48 kHz waveforms. In Track 2, we propose a background audio generator based on large language models (LLMs). This system produces scene-appropriate accompaniment descriptions, synthesizes background audio with Tango 2, and integrates it with the speech generated by our Track 1 system. Our submission achieves the second place and the first place in Track 1 and Track 2 respectively.

The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理