LatinX: Aligning a Multilingual TTS Model with Direct Preference Optimization
作者: Luis Felipe Chary, Miguel Arjona Ramirez
分类: cs.CL
发布日期: 2025-09-06
💡 一句话要点
LatinX:通过直接偏好优化对齐多语种TTS模型,实现跨语种语音克隆
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多语种TTS 语音克隆 直接偏好优化 跨语种语音翻译 Transformer 语音合成 说话人相似度
📋 核心要点
- 现有跨语种语音克隆模型在保持说话人身份方面存在挑战,尤其是在客观和主观评估指标上存在差距。
- LatinX通过三阶段训练,包括预训练、监督微调和基于DPO的对齐,旨在提升跨语种语音克隆的说话人相似度。
- 实验结果表明,LatinX在降低WER和提高客观相似度方面优于基线,且人工评估显示其说话人相似度优于XTTSv2。
📝 摘要(中文)
本文提出LatinX,一个用于级联语音到语音翻译的多语种文本到语音(TTS)模型,该模型能够在不同语言中保留源说话人的身份。LatinX是一个12层解码器Transformer,训练分为三个阶段:(i)文本到音频映射的预训练,(ii)用于零样本语音克隆的监督微调,以及(iii)使用基于词错误率(WER)和说话人相似度指标自动标记的配对数据,通过直接偏好优化(DPO)进行对齐。LatinX在英语和罗曼语系上训练,重点是葡萄牙语,通过DPO对齐后,WER持续降低,并且客观相似度优于微调后的基线。人工评估进一步表明,感知到的说话人相似度比强大的基线(XTTSv2)更强,揭示了客观和主观测量之间的差距。我们提供了跨语言分析,并讨论了平衡的偏好信号和低延迟架构作为未来的工作。
🔬 方法详解
问题定义:论文旨在解决多语种文本到语音(TTS)模型在跨语种语音克隆任务中,如何更好地保持源说话人身份的问题。现有方法,如直接微调,可能无法充分对齐不同语言的语音特征,导致克隆出的语音在说话人相似度上表现不佳,尤其是在主观听感上与客观指标存在偏差。
核心思路:论文的核心思路是利用直接偏好优化(DPO)来对齐TTS模型,使其更好地学习不同语言之间的语音特征映射,从而在跨语种语音克隆时能够更准确地保留源说话人的身份。DPO通过优化模型参数,使其更倾向于生成具有更高说话人相似度的语音。
技术框架:LatinX模型是一个12层解码器Transformer,训练流程分为三个阶段: 1. 预训练:使用大量文本和语音数据进行预训练,学习文本到音频的映射关系。 2. 监督微调:使用少量带有说话人标签的数据进行监督微调,使模型具备初步的零样本语音克隆能力。 3. DPO对齐:使用自动标注的偏好数据(基于WER和说话人相似度指标),通过DPO算法对模型进行对齐,进一步提升说话人相似度。
关键创新:该论文的关键创新在于将直接偏好优化(DPO)应用于多语种TTS模型的训练,并使用自动标注的偏好数据进行对齐。与传统的微调方法相比,DPO能够更有效地学习说话人相似度的偏好,从而提升跨语种语音克隆的性能。
关键设计: * 偏好数据生成:使用WER和说话人相似度指标自动标注偏好数据,为DPO提供训练信号。 * DPO损失函数:采用标准的DPO损失函数,优化模型参数,使其更倾向于生成具有更高说话人相似度的语音。 * 模型架构:采用12层解码器Transformer,保证模型的表达能力。 * 训练数据:使用英语和罗曼语系数据进行训练,重点关注葡萄牙语。
📊 实验亮点
LatinX模型在跨语种语音克隆任务中取得了显著的性能提升。实验结果表明,与微调后的基线相比,LatinX通过DPO对齐后,WER持续降低,并且客观相似度得到提高。人工评估进一步表明,LatinX的说话人相似度优于强大的基线XTTSv2,表明DPO在提升主观听感方面具有优势。
🎯 应用场景
LatinX模型可应用于跨语种语音翻译、多语种语音助手、个性化语音合成等领域。该研究有助于提升跨语言交流的自然度和个性化程度,在娱乐、教育、客户服务等领域具有广泛的应用前景。未来,该技术有望应用于更多语种,并进一步提升语音克隆的真实度和自然度。
📄 摘要(原文)
We present LatinX, a multilingual text-to-speech (TTS) model for cascaded speech-to-speech translation that preserves the source speaker's identity across languages. LatinX is a 12-layer decoder-only Transformer trained in three stages: (i) pre-training for text-to-audio mapping, (ii) supervised fine-tuning for zero-shot voice cloning, and (iii) alignment with Direct Preference Optimization (DPO) using automatically labeled pairs based on Word Error Rate (WER) and speaker-similarity metrics. Trained on English and Romance languages with emphasis on Portuguese, LatinX with DPO consistently reduces WER and improves objective similarity over the fine-tuned baseline. Human evaluations further indicate stronger perceived speaker similarity than a strong baseline (XTTSv2), revealing gaps between objective and subjective measures. We provide cross-lingual analyses and discuss balanced preference signals and lower-latency architectures as future work.