ZipVoice-Dialog: Non-Autoregressive Spoken Dialogue Generation with Flow Matching
作者: Han Zhu, Wei Kang, Liyong Guo, Zengwei Yao, Fangjun Kuang, Weiji Zhuang, Zhaoqing Li, Zhifeng Han, Dong Zhang, Xin Zhang, Xingchen Song, Long Lin, Daniel Povey
分类: eess.AS, cs.CL
发布日期: 2025-07-12
🔗 代码/项目: GITHUB
💡 一句话要点
提出ZipVoice-Dialog,一种基于Flow Matching的非自回归口语对话生成模型。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 口语对话生成 非自回归模型 Flow Matching 语音合成 零样本学习
📋 核心要点
- 现有口语对话生成模型采用自回归方式,存在推理速度慢和不稳定的问题。
- ZipVoice-Dialog利用Flow Matching,结合说话人轮次嵌入和课程学习,实现非自回归生成。
- 实验表明,ZipVoice-Dialog在多个指标上优于现有模型,并开源了数据集和代码。
📝 摘要(中文)
本文提出ZipVoice-Dialog,一种基于Flow Matching的非自回归零样本口语对话生成模型,旨在克服现有自回归模型推理速度慢和不稳定的问题。该模型包含:用于精确控制说话人切换的说话人-轮次嵌入;用于稳定语音-文本对齐的课程学习策略;以及用于立体声对话生成的专门策略。此外,作者还构建了一个6.8k小时的大规模口语对话数据集OpenDialog,并建立了一个基准来全面评估各种模型。实验结果表明,ZipVoice-Dialog在可理解性、说话人切换准确性、说话人相似性和推理速度方面均优于现有模型。代码、模型检查点、演示样本和OpenDialog数据集均已公开。
🔬 方法详解
问题定义:口语对话生成相较于单口语文本转语音(TTS)更具挑战性,需要模拟真实的轮流对话和区分不同的说话人音色。现有的自回归口语对话生成模型存在推理速度慢、生成过程不稳定等问题,限制了其在实际应用中的部署。
核心思路:ZipVoice-Dialog的核心思路是利用Flow Matching技术,构建一个非自回归的口语对话生成模型。通过非自回归的方式,可以显著提升推理速度,并提高生成过程的稳定性。同时,模型通过引入说话人轮次嵌入和课程学习策略,来保证生成语音的质量和对话的连贯性。
技术框架:ZipVoice-Dialog的整体框架包含文本编码器、Flow Matching模块、解码器和声码器。文本编码器将输入的对话文本转换为文本嵌入表示。Flow Matching模块基于文本嵌入生成语音特征,该模块是非自回归的核心组件。解码器将语音特征转换为梅尔频谱。最后,声码器将梅尔频谱合成为最终的语音信号。模型还包含说话人轮次嵌入模块,用于控制对话中说话人的切换。
关键创新:ZipVoice-Dialog的关键创新在于将Flow Matching技术应用于口语对话生成任务,实现了非自回归的语音合成。与传统的自回归模型相比,Flow Matching能够并行生成语音特征,从而显著提升推理速度。此外,模型还提出了专门针对口语对话场景的说话人轮次嵌入和课程学习策略,进一步提升了生成语音的质量和对话的连贯性。
关键设计:模型使用了基于Transformer的文本编码器和解码器。Flow Matching模块采用连续归一化流(Continuous Normalizing Flows, CNF)结构,通过学习一个时间相关的向量场,将高斯噪声逐步转换为语音特征。课程学习策略从简单的语音-文本对齐任务开始,逐步增加任务的难度,从而提高模型的训练效率和稳定性。说话人轮次嵌入是一个可学习的向量,用于表示当前说话人的身份和轮次信息,从而控制对话中说话人的切换。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ZipVoice-Dialog在可理解性、说话人切换准确性、说话人相似性和推理速度方面均优于现有模型。具体而言,ZipVoice-Dialog的推理速度比自回归模型快数倍,同时在主观听觉测试中获得了更高的MOS评分。此外,模型在说话人切换准确性方面也取得了显著提升,能够更准确地模拟真实的对话场景。
🎯 应用场景
ZipVoice-Dialog具有广泛的应用前景,例如智能客服、虚拟助手、游戏角色配音等。它可以用于生成自然流畅的对话语音,提升用户体验。此外,该技术还可以应用于语音合成领域的研究,促进语音合成技术的进一步发展。开源数据集OpenDialog将为口语对话生成领域的研究提供宝贵资源。
📄 摘要(原文)
Generating spoken dialogue is more challenging than monologue text-to-speech (TTS) due to the need for realistic turn-taking and distinct speaker timbres. Existing spoken dialogue generation models, being auto-regressive, suffer from slow and unstable inference. To overcome these limitations, we introduce ZipVoice-Dialog, a non-autoregressive zero-shot spoken dialogue generation model built upon flow matching. Key designs include: 1) speaker-turn embeddings for precise speaker turn-taking; 2) a curriculum learning strategy for stable speech-text alignment; 3) specialized strategies to enable stereo dialogue generation. Additionally, recognizing the lack of open-source large-scale spoken dialogue datasets, we curated OpenDialog, a 6.8k-hour spoken dialogue dataset from in-the-wild speech data. Furthermore, we established a benchmark to comprehensively evaluate various models. Experimental results demonstrate that ZipVoice-Dialog achieves superior performance in intelligibility, speaker turn-taking accuracy, speaker similarity, and inference speed. Our codes, model checkpoints, demo samples, and the OpenDialog dataset are all publicly available at https://github.com/k2-fsa/ZipVoice.