X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

作者: Rixi Xu, Qingyu Liu, Haitao Li, Yushen Chen, Zhikang Niu, Yunting Yang, Jian Zhao, Ke Li, Berrak Sisman, Qinyuan Cheng, Xipeng Qiu, Kai Yu, Xie Chen

分类: cs.SD, cs.AI, eess.AS

发布日期: 2026-05-07

备注: 16 pages, 4 figures, 9 tables

💡 一句话要点

提出X-Voice：基于两阶段流匹配训练的0.4B参数多语言零样本语音克隆模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion)

关键词: 语音克隆 零样本学习 流匹配 多语言合成 国际音标 语音合成

📋 核心要点

现有语音克隆模型通常依赖复杂的强制对齐预处理，且在处理无转录本的音频提示时表现受限，难以实现高效的零样本跨语言转换。
提出两阶段训练范式，利用IPA统一表征与流匹配技术，通过合成数据微调实现无需提示文本转录的零样本语音克隆能力。
实验表明，0.4B参数的X-Voice在多语言合成质量上超越LEMAS-TTS，并达到与十亿级模型相当的跨语言克隆性能。

📝 摘要（中文）

本文介绍了X-Voice，一个0.4B参数的多语言零样本语音克隆模型，支持任意音色在30种语言间的转换。该模型基于42万小时的多语言语料库训练，并采用国际音标（IPA）作为统一表征。为摆脱对提示文本的依赖及避免复杂的强制对齐预处理，研究设计了两阶段训练范式：第一阶段通过条件流匹配训练建立基础模型，并合成1万小时的说话人一致性片段；第二阶段在掩码提示文本的情况下进行微调，从而实现无需音频转录本的零样本克隆。架构上，X-Voice扩展了F5-TTS，引入了语言标识符的双层注入机制及解耦的分类器自由引导（CFG）调度。评估结果显示，X-Voice在多语言合成质量上优于LEMAS-TTS，并展现出与十亿级模型（如Qwen3-TTS）相当的零样本跨语言克隆能力。

🔬 方法详解

问题定义：现有零样本语音克隆模型往往高度依赖音频对应的文本转录，且在多语言环境下难以平衡音色保持与语言表达的准确性，强制对齐等预处理步骤也增加了系统复杂度。

核心思路：通过两阶段训练策略解耦对文本的依赖。第一阶段利用大规模语料建立基础流匹配模型，第二阶段通过自生成的音频-文本对进行微调，使模型具备在缺失提示文本的情况下进行高质量语音克隆的能力。

技术框架：整体架构基于F5-TTS扩展，采用流匹配（Flow-Matching）作为核心生成范式。模型输入包含IPA音素序列、语言标识符及参考音频，通过双层注入机制融合语言信息，并利用解耦的CFG调度优化生成质量。

关键创新：引入IPA作为跨语言统一表征，有效解决了多语言音素映射问题；设计了两阶段训练范式，成功消除了对提示文本转录的硬性需求，显著提升了系统的实用性与鲁棒性。

关键设计：在架构中实现了语言标识符的双层注入，增强了模型对不同语言特征的捕捉能力；通过对分类器自由引导（CFG）的解耦与调度，在推理阶段实现了对生成语音韵律与音色相似度的精细化控制。

🖼️ 关键图片

📊 实验亮点

实验结果显示，X-Voice在多语言合成任务中显著优于LEMAS-TTS等现有流匹配系统。尽管参数量仅为0.4B，但在零样本跨语言克隆的客观与主观评价指标上，均达到了与Qwen3-TTS等十亿级参数模型相当的性能水平，证明了其高效的参数利用率与卓越的泛化能力。

🎯 应用场景

X-Voice在跨语言内容创作、个性化虚拟助手、电影配音及有声书制作领域具有巨大潜力。其无需提示文本转录的特性，极大降低了用户使用门槛，可广泛应用于实时翻译、多语言社交媒体内容生成及辅助残障人士的个性化语音合成服务。

📄 摘要（原文）

In this paper, we present X-Voice, a 0.4B multilingual zero-shot voice cloning model that clones arbitrary voices and enables everyone to speak 30 languages. X-Voice is trained on a 420K-hour multilingual corpus using the International Phonetic Alphabet (IPA) as a unified representation. To eliminate the reliance on prompt text without complex preprocessing like forced alignment, we design a two-stage training paradigm. In Stage 1, we establish X-Voice${\text{s1}}$ through standard conditional flow-matching training and use it to synthesize 10K hours of speaker-consistent segments as audio prompts. In Stage 2, we fine-tune on these audio pairs with prompt text masked to derive X-Voice${\text{s2}}$, which enables zero-shot voice cloning without requiring transcripts of audio prompts. Architecturally, we extend F5-TTS by implementing a dual-level injection of language identifiers and decoupling and scheduling of Classifier-Free Guidance to facilitate multilingual speech synthesis. Subjective and objective evaluation results demonstrate that X-Voice outperforms existing flow-matching based multilingual systems like LEMAS-TTS and achieves zero-shot cross-lingual cloning capabilities comparable to billion-scale models such as Qwen3-TTS. To facilitate research transparency and community advancement, we open-source all related resources.

X-Voice: Enabling Everyone to Speak 30 Languages via Zero-Shot Cross-Lingual Voice Cloning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理