Expressive Prompting: Improving Emotion Intensity and Speaker Consistency in Zero-Shot TTS

📄 arXiv: 2409.18512 📥 PDF

作者: Haoyu Wang, Chunyu Qiang, Tianrui Wang, Cheng Gong, Yu Jiang, Yuheng Lu, Chen Zhang, Longbiao Wang, Jianwu Dang

分类: cs.SD, cs.AI, cs.CL, eess.AS

发布日期: 2026-04-06


💡 一句话要点

提出一种两阶段提示选择策略,提升零样本TTS的情感强度和说话人一致性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本TTS 情感语音合成 提示学习 说话人一致性 语音合成 大型语言模型 提示选择

📋 核心要点

  1. 现有零样本TTS系统依赖提示来控制内容、音色、说话人身份和情感,但现有提示选择方法难以保证说话人身份稳定和情感强度适当。
  2. 论文提出两阶段提示选择策略,静态阶段评估提示本身的质量和TTS模型合成后的质量,动态阶段选择与输入文本最匹配的提示。
  3. 实验结果表明,该策略能够有效提升合成语音的情感强度和说话人一致性,实现更具表现力和稳定性的零样本TTS性能。

📝 摘要(中文)

本文提出了一种两阶段提示选择策略,旨在提升基于大型语言模型(LLM)的零样本文本到语音(TTS)系统中情感强度和说话人一致性。现有方法在提示选择上无法保证提示包含足够稳定的说话人身份线索和适当的情感强度指标,这对于表现力丰富的语音合成至关重要。该策略分为静态阶段(合成前)和动态阶段(合成中)。静态阶段利用基于音高的韵律特征、感知音频质量以及LLM评估的文本情感连贯性来评估候选提示,并进一步通过TTS模型评估合成语音与提示语音之间的字错误率、说话人相似度和情感相似度。动态阶段则使用文本相似度模型选择与当前输入文本最匹配的提示。实验结果表明,该策略能够有效选择提示,合成出具有高强度情感表达和鲁棒说话人身份的语音,从而实现更具表现力和稳定性的零样本TTS性能。

🔬 方法详解

问题定义:零样本TTS系统依赖提示来控制语音合成的各个方面,包括说话人身份和情感。然而,现有的提示选择方法通常无法确保所选提示包含足够稳定和明确的说话人身份信息,也难以保证提示能够有效引导合成出具有目标情感强度的语音。这导致合成语音在说话人一致性和情感表达方面存在不足,影响了TTS系统的表现力。

核心思路:论文的核心思路是通过一个两阶段的提示选择策略来解决上述问题。该策略首先在静态阶段对候选提示进行预评估,筛选出具有良好说话人身份和情感表达潜力的提示。然后在动态阶段,根据当前输入文本的内容,选择与文本语义最相关的提示。这种分阶段的方法能够兼顾提示本身的质量和与输入文本的匹配程度,从而提高合成语音的质量。

技术框架:该方法包含两个主要阶段:静态阶段和动态阶段。 静态阶段:首先,利用音高相关的韵律特征、感知音频质量和LLM评估的文本情感连贯性对候选提示进行初步筛选。然后,使用特定的TTS模型合成语音,并计算合成语音与提示语音之间的字错误率(CER)、说话人相似度和情感相似度。 动态阶段:使用文本相似度模型,计算候选提示与当前输入文本之间的相似度,选择相似度最高的提示用于语音合成。

关键创新:该方法的主要创新在于提出了一个综合考虑提示本身质量和与输入文本匹配程度的两阶段提示选择策略。静态阶段的预评估能够有效筛选出高质量的提示,动态阶段的文本相似度匹配能够保证提示与输入文本的语义相关性。此外,利用TTS模型评估合成语音与提示语音之间的相似度,能够更准确地衡量提示的有效性。

关键设计:在静态阶段,使用了音高相关的韵律特征来评估提示的质量,这有助于筛选出具有清晰语音特征的提示。同时,利用LLM评估文本情感连贯性,能够保证提示的情感表达符合预期。在动态阶段,使用了文本相似度模型来计算提示与输入文本之间的相似度,这需要选择合适的文本相似度模型,并进行有效的训练。

📊 实验亮点

实验结果表明,该策略能够有效选择提示,合成出具有高强度情感表达和鲁棒说话人身份的语音,从而实现更具表现力和稳定性的零样本TTS性能。具体性能数据和对比基线将在论文的实验部分详细展示。

🎯 应用场景

该研究成果可应用于各种需要高质量、情感丰富的语音合成的场景,例如:个性化语音助手、有声读物制作、游戏角色配音、情感客服等。通过提升零样本TTS的情感表达能力和说话人一致性,可以显著改善用户体验,并为语音合成技术开辟更广阔的应用前景。

📄 摘要(原文)

Recent advancements in speech synthesis have enabled large language model (LLM)-based systems to perform zero-shot generation with controllable content, timbre, speaker identity, and emotion through input prompts. As a result, these models heavily rely on prompt design to guide the generation process. However, existing prompt selection methods often fail to ensure that prompts contain sufficiently stable speaker identity cues and appropriate emotional intensity indicators, which are crucial for expressive speech synthesis. To address this challenge, we propose a two-stage prompt selection strategy specifically designed for expressive speech synthesis. In the static stage (before synthesis), we first evaluate prompt candidates using pitch-based prosodic features, perceptual audio quality, and text-emotion coherence scores evaluated by an LLM. We further assess the candidates under a specific TTS model by measuring character error rate, speaker similarity, and emotional similarity between the synthesized and prompt speech. In the dynamic stage (during synthesis), we use a textual similarity model to select the prompt that is most aligned with the current input text. Experimental results demonstrate that our strategy effectively selects prompt to synthesize speech with both high-intensity emotional expression and robust speaker identity, leading to more expressive and stable zero-shot TTS performance. Audio samples and codes will be available atthis https URL.