X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

📄 arXiv: 2605.05611v1 📥 PDF

作者: Rixi Xu, Qingyu Liu, Haitao Li, Yushen Chen, Zhikang Niu, Yunting Yang, Jian Zhao, Ke Li, Berrak Sisman, Qinyuan Cheng, Xipeng Qiu, Kai Yu, Xie Chen

分类: cs.SD, cs.AI, eess.AS

发布日期: 2026-05-07

备注: 16 pages, 4 figures, 9 tables


💡 一句话要点

提出X-Voice:基于两阶段流匹配训练的0.4B参数多语言零样本语音克隆模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 语音克隆 零样本学习 流匹配 多语言合成 国际音标 语音合成

📋 核心要点

  1. 现有语音克隆模型通常依赖复杂的强制对齐预处理,且在处理无转录本的音频提示时表现受限,难以实现高效的零样本跨语言转换。
  2. 提出两阶段训练范式,利用IPA统一表征与流匹配技术,通过合成数据微调实现无需提示文本转录的零样本语音克隆能力。
  3. 实验表明,0.4B参数的X-Voice在多语言合成质量上超越LEMAS-TTS,并达到与十亿级模型相当的跨语言克隆性能。

📝 摘要(中文)

本文介绍了X-Voice,一个0.4B参数的多语言零样本语音克隆模型,支持任意音色在30种语言间的转换。该模型基于42万小时的多语言语料库训练,并采用国际音标(IPA)作为统一表征。为摆脱对提示文本的依赖及避免复杂的强制对齐预处理,研究设计了两阶段训练范式:第一阶段通过条件流匹配训练建立基础模型,并合成1万小时的说话人一致性片段;第二阶段在掩码提示文本的情况下进行微调,从而实现无需音频转录本的零样本克隆。架构上,X-Voice扩展了F5-TTS,引入了语言标识符的双层注入机制及解耦的分类器自由引导(CFG)调度。评估结果显示,X-Voice在多语言合成质量上优于LEMAS-TTS,并展现出与十亿级模型(如Qwen3-TTS)相当的零样本跨语言克隆能力。

🔬 方法详解

问题定义:现有零样本语音克隆模型往往高度依赖音频对应的文本转录,且在多语言环境下难以平衡音色保持与语言表达的准确性,强制对齐等预处理步骤也增加了系统复杂度。

核心思路:通过两阶段训练策略解耦对文本的依赖。第一阶段利用大规模语料建立基础流匹配模型,第二阶段通过自生成的音频-文本对进行微调,使模型具备在缺失提示文本的情况下进行高质量语音克隆的能力。

技术框架:整体架构基于F5-TTS扩展,采用流匹配(Flow-Matching)作为核心生成范式。模型输入包含IPA音素序列、语言标识符及参考音频,通过双层注入机制融合语言信息,并利用解耦的CFG调度优化生成质量。

关键创新:引入IPA作为跨语言统一表征,有效解决了多语言音素映射问题;设计了两阶段训练范式,成功消除了对提示文本转录的硬性需求,显著提升了系统的实用性与鲁棒性。

关键设计:在架构中实现了语言标识符的双层注入,增强了模型对不同语言特征的捕捉能力;通过对分类器自由引导(CFG)的解耦与调度,在推理阶段实现了对生成语音韵律与音色相似度的精细化控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,X-Voice在多语言合成任务中显著优于LEMAS-TTS等现有流匹配系统。尽管参数量仅为0.4B,但在零样本跨语言克隆的客观与主观评价指标上,均达到了与Qwen3-TTS等十亿级参数模型相当的性能水平,证明了其高效的参数利用率与卓越的泛化能力。

🎯 应用场景

X-Voice在跨语言内容创作、个性化虚拟助手、电影配音及有声书制作领域具有巨大潜力。其无需提示文本转录的特性,极大降低了用户使用门槛,可广泛应用于实时翻译、多语言社交媒体内容生成及辅助残障人士的个性化语音合成服务。

📄 摘要(原文)

In this paper, we present X-Voice, a 0.4B multilingual zero-shot voice cloning model that clones arbitrary voices and enables everyone to speak 30 languages. X-Voice is trained on a 420K-hour multilingual corpus using the International Phonetic Alphabet (IPA) as a unified representation. To eliminate the reliance on prompt text without complex preprocessing like forced alignment, we design a two-stage training paradigm. In Stage 1, we establish X-Voice${\text{s1}}$ through standard conditional flow-matching training and use it to synthesize 10K hours of speaker-consistent segments as audio prompts. In Stage 2, we fine-tune on these audio pairs with prompt text masked to derive X-Voice${\text{s2}}$, which enables zero-shot voice cloning without requiring transcripts of audio prompts. Architecturally, we extend F5-TTS by implementing a dual-level injection of language identifiers and decoupling and scheduling of Classifier-Free Guidance to facilitate multilingual speech synthesis. Subjective and objective evaluation results demonstrate that X-Voice outperforms existing flow-matching based multilingual systems like LEMAS-TTS and achieves zero-shot cross-lingual cloning capabilities comparable to billion-scale models such as Qwen3-TTS. To facilitate research transparency and community advancement, we open-source all related resources.