Generative Expressive Conversational Speech Synthesis
作者: Rui Liu, Yifan Hu, Yi Ren, Xiang Yin, Haizhou Li
分类: cs.CL, cs.SD, eess.AS
发布日期: 2024-07-31 (更新: 2024-08-01)
备注: 14 pages, 6 figures, 8 tables. Accepted by ACM MM 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出GPT-Talker,用于生成具有表现力的对话语音合成,并构建大规模自然对话语音数据集NCSSD。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话语音合成 生成模型 GPT VITS 多模态融合 自然语言处理 表现力语音 大规模数据集
📋 核心要点
- 现有的对话语音合成(CSS)方法依赖复杂网络和精细优化,且受限于小规模数据集,难以模拟真实自然的对话风格。
- GPT-Talker将多模态对话历史转化为离散token序列,利用GPT预测包含语义和风格知识的回复token,再用VITS合成语音。
- 构建了大规模自然CSS数据集NCSSD,包含中英文,总时长236小时。实验表明GPT-Talker在自然性和表现力上显著优于现有方法。
📝 摘要(中文)
本文提出了一种新的生成式表现力对话语音合成系统,名为GPT-Talker。该系统将多轮对话历史的多模态信息转换为离散的token序列,并无缝集成以形成全面的用户-代理对话上下文。利用GPT的强大能力,预测代理回复的token序列,其中包含语义和风格知识。之后,通过对话增强的VITS合成富有表现力的对话语音,向用户提供反馈。此外,我们提出了一个大规模的自然CSS数据集,名为NCSSD,其中包含即兴风格的自然录音对话语音和从电视节目中提取的对话,涵盖中文和英文,总时长为236小时。我们对NCSSD的可靠性和GPT-Talker的有效性进行了全面的实验。主观和客观评估都表明,我们的模型在自然性和表现力方面明显优于其他最先进的CSS系统。
🔬 方法详解
问题定义:现有的对话语音合成方法通常需要设计复杂的网络架构,并精心优化其中的模块。此外,由于小规模数据集的限制,这些数据集通常包含脚本化的录音风格,因此现有方法通常无法模拟真实的自然对话风格。因此,需要一种能够生成更自然、更富有表现力的对话语音合成方法,并且能够利用大规模的自然对话数据进行训练。
核心思路:本文的核心思路是将多模态的对话历史信息转换为离散的token序列,然后利用GPT模型来预测代理回复的token序列。这种方法将语义和风格知识都编码在token序列中,从而使得合成的语音更富有表现力。此外,通过使用大规模的自然对话数据集进行训练,可以使得模型能够更好地模拟真实的对话风格。
技术框架:GPT-Talker系统的整体架构包括以下几个主要模块:1) 多模态信息编码器:将多轮对话历史的多模态信息(例如,文本、语音、情感等)转换为离散的token序列。2) GPT模型:利用GPT模型来预测代理回复的token序列,其中包含语义和风格知识。3) 对话增强的VITS模型:利用VITS模型将token序列合成为语音,并通过对话上下文信息来增强语音的表现力。
关键创新:本文最重要的技术创新点在于将GPT模型引入到对话语音合成任务中。GPT模型具有强大的语言建模能力,可以有效地捕捉对话历史中的语义和风格信息,从而生成更自然、更富有表现力的语音。此外,本文还提出了一个大规模的自然对话数据集NCSSD,为模型的训练提供了充足的数据。
关键设计:在多模态信息编码器中,可以使用预训练的语言模型(例如,BERT)来编码文本信息,使用语音识别模型来编码语音信息,使用情感分析模型来编码情感信息。在GPT模型中,可以使用标准的GPT架构,并使用交叉熵损失函数进行训练。在对话增强的VITS模型中,可以使用VITS模型的变体,并使用对抗训练来提高语音的自然度。
📊 实验亮点
实验结果表明,GPT-Talker在自然性和表现力方面显著优于其他最先进的CSS系统。主观听力测试表明,GPT-Talker生成的语音在自然度和表现力方面均获得了更高的评分。客观指标方面,GPT-Talker在语音质量和风格相似度方面也取得了显著提升。例如,在自然度方面,GPT-Talker的MOS得分比基线系统提高了0.5分以上。
🎯 应用场景
该研究成果可应用于智能客服、虚拟助手、游戏角色等领域,提升人机交互的自然度和用户体验。通过生成更具表现力的对话语音,可以使机器更好地理解用户的情感和意图,并做出更恰当的反馈。未来,该技术有望在教育、娱乐、医疗等领域发挥重要作用。
📄 摘要(原文)
Conversational Speech Synthesis (CSS) aims to express a target utterance with the proper speaking style in a user-agent conversation setting. Existing CSS methods employ effective multi-modal context modeling techniques to achieve empathy understanding and expression. However, they often need to design complex network architectures and meticulously optimize the modules within them. In addition, due to the limitations of small-scale datasets containing scripted recording styles, they often fail to simulate real natural conversational styles. To address the above issues, we propose a novel generative expressive CSS system, termed GPT-Talker.We transform the multimodal information of the multi-turn dialogue history into discrete token sequences and seamlessly integrate them to form a comprehensive user-agent dialogue context. Leveraging the power of GPT, we predict the token sequence, that includes both semantic and style knowledge, of response for the agent. After that, the expressive conversational speech is synthesized by the conversation-enriched VITS to deliver feedback to the user.Furthermore, we propose a large-scale Natural CSS Dataset called NCSSD, that includes both naturally recorded conversational speech in improvised styles and dialogues extracted from TV shows. It encompasses both Chinese and English languages, with a total duration of 236 hours.We conducted comprehensive experiments on the reliability of the NCSSD and the effectiveness of our GPT-Talker. Both subjective and objective evaluations demonstrate that our model outperforms other state-of-the-art CSS systems significantly in terms of naturalness and expressiveness. The Code, Dataset, and Pre-trained Model are available at: https://github.com/AI-S2-Lab/GPT-Talker.