Towards Controllable Speech Synthesis in the Era of Large Language Models: A Systematic Survey

作者: Tianxin Xie, Yan Rong, Pengfei Zhang, Wenwu Wang, Li Liu

分类: cs.CL, cs.AI, cs.LG, cs.MM, cs.SD, eess.AS

发布日期: 2024-12-09 (更新: 2025-08-25)

备注: The first comprehensive survey on controllable TTS. Accepted to the EMNLP 2025 main conference

🔗 代码/项目: GITHUB

💡 一句话要点

系统性综述：基于大语言模型的可控语音合成技术

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 可控语音合成 文本到语音 大语言模型 深度学习 语音属性控制 自然语言提示 语音合成综述

📋 核心要点

现有语音合成方法难以实现对语音属性（如情感、音色和风格）的细粒度控制，限制了其应用。
本文系统性地回顾了可控语音合成技术，涵盖传统方法和基于自然语言提示的新兴方法。
该综述对模型架构、控制策略和特征表示进行了分类，并总结了可控TTS领域的挑战、数据集和评估方法。

📝 摘要（中文）

本文对可控语音合成（TTS）方法进行了首次全面的综述。随着工业需求的增长和深度学习（例如，扩散模型和大语言模型（LLM））的突破，可控TTS已成为一个快速发展的研究领域。本文涵盖了从传统控制技术到使用自然语言提示的新兴方法。文章对模型架构、控制策略和特征表示进行了分类，同时总结了可控TTS中的挑战、数据集和评估方法。本综述旨在通过提供清晰的分类和突出该快速发展领域的未来方向来指导研究人员和从业人员。读者可以访问 https://github.com/imxtx/awesome-controllabe-speech-synthesis 获取全面的论文列表和更新。

🔬 方法详解

问题定义：可控语音合成旨在解决传统语音合成方法在语音属性控制方面的不足，例如难以精确控制情感、音色和风格等。现有方法往往依赖于复杂的外部控制信号或难以泛化的模型结构，限制了其灵活性和可扩展性。

核心思路：本文的核心思路是对现有可控语音合成方法进行系统性的梳理和分类，从模型架构、控制策略和特征表示三个维度进行分析，并总结了该领域面临的挑战和未来发展方向。通过对现有方法的深入理解，为研究人员和从业者提供指导。

技术框架：该综述没有提出新的技术框架，而是对现有技术进行了分类和总结。主要包括：1) 模型架构：包括自回归模型、变分自编码器、生成对抗网络、扩散模型等；2) 控制策略：包括基于属性向量的控制、基于自然语言提示的控制等；3) 特征表示：包括声学特征、语言特征、韵律特征等。

关键创新：该综述的创新之处在于它是首次对可控语音合成方法进行全面的综述，并提出了清晰的分类体系。通过对现有方法的分析和总结，为研究人员提供了有价值的参考。

关键设计：该综述的关键设计在于其分类体系，它将可控语音合成方法分为模型架构、控制策略和特征表示三个维度，并对每个维度下的方法进行了详细的描述和分析。此外，该综述还总结了可控语音合成领域常用的数据集和评估指标。

🖼️ 关键图片

📊 实验亮点

该综述总结了可控语音合成领域常用的数据集和评估指标，并对现有方法的性能进行了比较。通过对现有方法的分析，指出了该领域面临的挑战和未来发展方向，为研究人员提供了有价值的参考。

🎯 应用场景

可控语音合成技术在人机交互、语音助手、游戏开发、有声读物制作等领域具有广泛的应用前景。通过精确控制语音的各种属性，可以创造更具表现力和个性化的语音内容，提升用户体验。未来，随着技术的不断发展，可控语音合成将在更多领域发挥重要作用。

📄 摘要（原文）

Text-to-speech (TTS) has advanced from generating natural-sounding speech to enabling fine-grained control over attributes like emotion, timbre, and style. Driven by rising industrial demand and breakthroughs in deep learning, e.g., diffusion and large language models (LLMs), controllable TTS has become a rapidly growing research area. This survey provides the first comprehensive review of controllable TTS methods, from traditional control techniques to emerging approaches using natural language prompts. We categorize model architectures, control strategies, and feature representations, while also summarizing challenges, datasets, and evaluations in controllable TTS. This survey aims to guide researchers and practitioners by offering a clear taxonomy and highlighting future directions in this fast-evolving field. One can visit https://github.com/imxtx/awesome-controllabe-speech-synthesis for a comprehensive paper list and updates.

Towards Controllable Speech Synthesis in the Era of Large Language Models: A Systematic Survey

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理