PilotTTS: A Disciplined Modular Recipe for Competitive Speech Synthesis
作者: Bowen Li, Shaotong Guo, Zhen Wang, Yang Xiang, Mingli Jin, Yihang Lin, Jiahui Zhao, Weibo Xiong, Dongrui Li, Keming Chen, Yunze Gao, Yuze Zhou, Zeyang Lin, Yue Liu
分类: cs.SD, cs.AI
发布日期: 2026-05-26
🔗 代码/项目: GITHUB
💡 一句话要点
PilotTTS:通过精简架构和严格数据工程实现高质量语音合成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 文本到语音 语音合成 自回归模型 数据工程 Q-Former 语音克隆 情感合成
📋 核心要点
- 现有TTS系统依赖大量专有数据和复杂架构,限制了资源受限团队的研究。
- PilotTTS采用极简架构和严格数据工程,通过Q-Former解耦说话人身份和风格。
- PilotTTS在Seed-TTS Eval上超越了使用更大数据集训练的系统,展示了其竞争力。
📝 摘要(中文)
构建最先进的文本到语音(TTS)系统通常需要数百万小时的专有数据和复杂的多阶段架构,这为资源有限的研究团队带来了巨大的障碍。在本报告中,我们提出了PilotTTS,一个轻量级的自回归TTS系统,它通过极简的架构和严格的数据工程实现了具有竞争力的性能。PilotTTS仅在20万小时的数据上进行训练,这些数据完全使用开源工具进行处理。具体来说,我们的贡献是:(1)一个可复现的多阶段数据处理流程,涵盖质量评估、标签注释和过滤;(2)一个紧凑的模型架构,它采用基于Q-Former的条件作用,通过跨样本配对训练将说话人身份与说话风格分离。在一个统一的框架内,PilotTTS支持零样本语音克隆、情感合成(11个类别)、副语言合成(4个类别)和中国方言合成(14个方言)。在Seed-TTS Eval基准测试中,PilotTTS在test-en上实现了最低的WER(1.50%),在test-zh上实现了最低的CER(0.87%),并在两个测试集上实现了最高的说话人相似度(0.862和0.815),优于在更大的数据集上训练的系统。我们发布了完整的数据流程配方、预训练权重和代码。
🔬 方法详解
问题定义:现有文本到语音(TTS)系统通常需要大量的专有数据和复杂的多阶段架构,这使得资源有限的研究团队难以构建和改进TTS系统。现有方法在数据处理和模型设计上存在挑战,例如数据质量控制、说话人风格和身份的解耦等。
核心思路:PilotTTS的核心思路是通过精简的架构和严格的数据工程来构建一个高性能的TTS系统。通过开源工具处理数据,并采用Q-Former来解耦说话人身份和说话风格,从而在有限的数据集上实现高质量的语音合成。
技术框架:PilotTTS是一个自回归TTS系统,包含以下主要模块:1) 数据处理流程:包括质量评估、标签注释和过滤等步骤,确保数据质量。2) 模型架构:采用紧凑的模型架构,使用Q-Former进行条件作用,以解耦说话人身份和说话风格。3) 训练策略:采用跨样本配对训练,进一步增强说话人身份和风格的解耦。
关键创新:PilotTTS的关键创新在于其数据处理流程和模型架构的结合。通过严格的数据工程,确保了训练数据的质量,并通过Q-Former实现了说话人身份和风格的有效解耦。这种结合使得PilotTTS能够在有限的数据集上实现具有竞争力的性能。
关键设计:PilotTTS的关键设计包括:1) 数据过滤策略:使用开源工具进行数据质量评估和过滤,确保训练数据的质量。2) Q-Former架构:使用Q-Former来提取说话人身份和风格的特征,并将其作为条件输入到语音合成模型中。3) 跨样本配对训练:通过配对不同说话人的语音样本,增强模型对说话人身份和风格的区分能力。
🖼️ 关键图片
📊 实验亮点
PilotTTS在Seed-TTS Eval基准测试中取得了显著成果。在test-en上,PilotTTS实现了最低的WER(1.50%),在test-zh上实现了最低的CER(0.87%),并在两个测试集上实现了最高的说话人相似度(0.862和0.815)。这些结果表明,PilotTTS在语音合成质量和说话人相似度方面均优于使用更大数据集训练的系统。
🎯 应用场景
PilotTTS具有广泛的应用前景,包括语音助手、语音合成、语音克隆、情感语音合成和方言语音合成等。该研究降低了高质量TTS系统的构建门槛,使得资源有限的团队也能开发出具有竞争力的TTS系统。未来,PilotTTS可以应用于更多场景,例如个性化语音服务、教育和娱乐等。
📄 摘要(原文)
Building state-of-the-art text-to-speech (TTS) systems typically demands millions of hours of proprietary data and complex multi-stage architectures, creating substantial barriers for resource-constrained research teams. In this report, we present PilotTTS, a lightweight autoregressive TTS system that achieves competitive performance through minimalist architecture and rigorous data engineering. PilotTTS is trained on only 200K hours of data processed entirely with open-source tools. Specifically, our contributions are: (1) a reproducible multi-stage data processing pipeline covering quality assessment, label annotation, and filtering, and (2) a compact model architecture that employs Q-Former-based conditioning to decouple speaker identity from speaking style via cross-sample paired training. Within a unified framework, PilotTTS supports zero-shot voice cloning, emotion synthesis (11 categories), paralinguistic synthesis (4 categories), and Chinese dialect synthesis (14 dialects). On the Seed-TTS Eval benchmark, PilotTTS achieves the lowest WER of 1.50% on test-en, a CER of 0.87% on test-zh, and the highest speaker similarity on both test sets (0.862 and 0.815), outperforming systems trained on significantly larger datasets. We release the complete data pipeline recipe, pretrained weights, and code at https://github.com/AMAPVOICE/PilotTTS.