dots.tts Technical Report
作者: Shi Lian, Changtao Li, Bohan Li, Hankun Wang, Da Zheng, Junfeng Tian, Yufeng Ma, Colin Zhang, Kai Yu
分类: cs.SD, cs.AI, eess.AS
发布日期: 2026-06-05
💡 一句话要点
提出dots.tts以解决多语言文本到语音生成的挑战
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到语音 连续自回归模型 语音生成 多语言支持 鲁棒性提升
📋 核心要点
- 现有的文本到语音生成模型在多语言支持和生成稳定性方面存在不足,尤其是在长文本生成时容易出现漂移现象。
- 论文提出的dots.tts模型通过构建语义结构化的连续语音空间和全历史条件流匹配机制,解决了生成过程中的一致性和鲁棒性问题。
- 实验结果显示,dots.tts在多个基准测试中表现优异,特别是在Seed-TTS-Eval上,中文、英文和困难中文测试集的WER分别为0.94%、1.30%和6.60%。
📝 摘要(中文)
我们提出了dots.tts,这是一个具有20亿参数的连续自回归文本到语音(TTS)基础模型,能够在连续潜在空间中建模语音。与现有的连续自回归模型相比,我们的创新主要体现在三个方面:首先,训练了一个具有多重目标的AudioVAE,以构建语义结构化且适合预测的连续语音空间;其次,在流匹配头中使用全历史条件,以保持长距离一致性并减少生成过程中的漂移;最后,应用无奖励自我修正后训练,以进一步提高鲁棒性和音质。经过大规模多语言语料库的训练,dots.tts在Seed-TTS-Eval上取得了最佳平均性能,且在其他基准测试中也表现出开源领域的最先进性能。
🔬 方法详解
问题定义:本研究旨在解决现有文本到语音生成模型在多语言支持和生成稳定性方面的不足,尤其是在长文本生成中容易出现的漂移现象。
核心思路:dots.tts模型通过构建一个语义结构化的连续语音空间,结合全历史条件流匹配机制,来提高生成过程中的一致性和鲁棒性。
技术框架:模型整体架构包括三个主要模块:AudioVAE用于构建连续语音空间,流匹配头用于生成过程中的条件处理,以及后训练阶段用于进一步提升音质和鲁棒性。
关键创新:最重要的技术创新在于引入了多重目标的AudioVAE和无奖励自我修正后训练,这些设计使得模型在生成过程中能够更好地保持长距离一致性和音质。
关键设计:在模型设计中,采用了特定的损失函数以优化语音生成质量,并在流匹配头中实现了全历史条件,以确保生成的语音具有更高的连贯性和自然性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,dots.tts在Seed-TTS-Eval上取得了最佳平均性能,中文、英文和困难中文测试集的WER分别为0.94%、1.30%和6.60%。此外,模型在其他基准测试中也展现出开源领域的最先进性能,具有强大的生成稳定性和情感表达能力。
🎯 应用场景
dots.tts模型在多语言文本到语音生成领域具有广泛的应用潜力,能够用于语音助手、翻译软件和有声书等场景。其高质量的语音生成能力和情感表达能力将为用户提供更自然的交互体验,未来可能推动智能语音技术的进一步发展。
📄 摘要(原文)
We present dots.tts, a 2B-parameter continuous autoregressive text-to-speech (TTS) foundation model that models speech in a continuous latent space. Compared with existing continuous autoregressive models, our key innovations are threefold. First, we train an AudioVAE with multiple objectives to build a semantically structured and prediction-friendly continuous speech space. Second, we use full-history conditioning in the flow-matching head to preserve long-range consistency and reduce drift during generation. Third, we apply reward-free self-corrective post-training to the flow-matching head to further improve robustness and acoustic quality. After being trained on a large-scale multilingual corpus, dots.tts achieves the best average performance on Seed-TTS-Eval, with WERs of 0.94%/1.30%/6.60% and SIM scores of 81.0/77.1/79.5 on the zh/en/zh-hard test sets, respectively. Across other benchmarks, dots.tts also consistently demonstrates open-source state-of-the-art performance, exhibiting strong generation stability, voice cloning ability, and emotional expressiveness. For efficient inference, we further apply CFG-aware MeanFlow distillation, enabling low-latency speech generation with first-packet latencies of 85/54 ms in output streaming and dual-streaming modes, respectively. To facilitate reproducible research and practical deployment, we release the training and inference code, together with the pretrained, post-trained, and MeanFlow-distilled checkpoints, under the Apache 2.0 license.