The NPU-HWC System for the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge

📄 arXiv: 2410.23815v1 📥 PDF

作者: Dake Guo, Jixun Yao, Xinfa Zhu, Kangxiang Xia, Zhao Guo, Ziyu Zhang, Yao Wang, Jie Liu, Lei Xie

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-10-31

备注: accepted by ISCSLP 2024


💡 一句话要点

NPU-HWC系统:基于Single-Codec和LLM的激励性语音与背景音生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音合成 说话风格克隆 背景音乐生成 大型语言模型 音频生成 Single-Codec DSPGAN

📋 核心要点

  1. 现有语音合成方法难以有效解耦音色和说话风格,限制了零样本说话风格克隆的性能。
  2. 该系统提出使用Single-Codec将语音解耦为离散token,从而降低语言模型的声学建模负担。
  3. 该系统在ICAGC 2024挑战赛的Track 1和Track 2中分别取得了第二名和第一名的成绩。

📝 摘要(中文)

本文介绍了NPU-HWC系统,该系统参加了ISCSLP 2024激励性和说服力音频生成挑战赛(ICAGC)。我们的系统包含两个模块:用于Track 1的语音生成器和用于Track 2的背景音频生成器。在Track 1中,我们采用Single-Codec将语音标记化为离散token,并使用基于语言模型的方法实现零样本说话风格克隆。Single-Codec有效地解耦了token级别上的音色和说话风格,从而减轻了自回归语言模型的声学建模负担。此外,我们使用DSPGAN将16 kHz mel频谱上采样到高保真48 kHz波形。在Track 2中,我们提出了一个基于大型语言模型(LLM)的背景音频生成器。该系统生成适合场景的伴奏描述,使用Tango 2合成背景音频,并将其与Track 1系统生成的语音集成。我们的提交在Track 1和Track 2中分别获得了第二名和第一名。

🔬 方法详解

问题定义:现有语音合成方法在零样本说话风格克隆任务中,难以有效解耦音色和说话风格,导致模型需要同时学习音色和风格,增加了建模的难度,降低了生成语音的质量和风格相似度。此外,生成与语音内容相匹配的背景音乐也是一个挑战,需要理解语音内容并生成合适的场景描述。

核心思路:该论文的核心思路是利用Single-Codec将语音解耦为离散token,从而将音色和说话风格分离,降低语言模型的建模难度。对于背景音乐生成,则利用大型语言模型理解语音内容,生成场景描述,再利用音频生成模型生成背景音乐。这样可以分别处理语音和背景音乐的生成,提高生成质量和控制能力。

技术框架:该系统包含两个主要模块:语音生成器(Track 1)和背景音频生成器(Track 2)。语音生成器首先使用Single-Codec将语音转换为离散token,然后使用语言模型学习说话风格,最后使用DSPGAN将mel频谱上采样为高保真波形。背景音频生成器首先使用LLM生成场景描述,然后使用Tango 2合成背景音频,最后将背景音频与生成的语音进行混合。

关键创新:该论文的关键创新在于使用Single-Codec进行语音解耦。与传统的声码器相比,Single-Codec能够在token级别上更好地分离音色和说话风格,从而降低了语言模型的建模难度,提高了零样本说话风格克隆的性能。此外,利用LLM生成场景描述,并使用Tango 2合成背景音频,也为背景音乐生成提供了一种新的思路。

关键设计:在Track 1中,Single-Codec的具体实现细节未知,但其目标是生成能够有效分离音色和风格的离散token。语言模型采用自回归结构,用于学习说话风格的token序列。DSPGAN用于将16kHz mel频谱上采样到48kHz,提高音频质量。在Track 2中,LLM的具体选择未知,但需要具备理解语音内容并生成场景描述的能力。Tango 2用于将场景描述转换为背景音频。

🖼️ 关键图片

fig_0

📊 实验亮点

该系统在ISCSLP 2024 ICAGC挑战赛中表现出色,在Track 1(语音生成)中获得第二名,在Track 2(背景音频生成)中获得第一名。这表明该系统在语音风格克隆和背景音乐生成方面具有显著的优势。具体性能数据未知,但排名结果证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于语音合成、语音克隆、智能配乐等领域。例如,可以用于生成具有特定说话风格的语音,为视频或游戏自动生成合适的背景音乐,或为有语言障碍的人提供个性化的语音辅助工具。该技术在人机交互、内容创作和辅助技术等方面具有广阔的应用前景。

📄 摘要(原文)

This paper presents the NPU-HWC system submitted to the ISCSLP 2024 Inspirational and Convincing Audio Generation Challenge 2024 (ICAGC). Our system consists of two modules: a speech generator for Track 1 and a background audio generator for Track 2. In Track 1, we employ Single-Codec to tokenize the speech into discrete tokens and use a language-model-based approach to achieve zero-shot speaking style cloning. The Single-Codec effectively decouples timbre and speaking style at the token level, reducing the acoustic modeling burden on the autoregressive language model. Additionally, we use DSPGAN to upsample 16 kHz mel-spectrograms to high-fidelity 48 kHz waveforms. In Track 2, we propose a background audio generator based on large language models (LLMs). This system produces scene-appropriate accompaniment descriptions, synthesizes background audio with Tango 2, and integrates it with the speech generated by our Track 1 system. Our submission achieves the second place and the first place in Track 1 and Track 2 respectively.