LatinX: Aligning a Multilingual TTS Model with Direct Preference Optimization

作者: Luis Felipe Chary, Miguel Arjona Ramirez

分类: cs.CL

发布日期: 2025-09-06

💡 一句话要点

LatinX：通过直接偏好优化对齐多语种TTS模型，实现跨语种语音克隆

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多语种TTS 语音克隆 直接偏好优化 跨语种语音翻译 Transformer 语音合成 说话人相似度

📋 核心要点

现有跨语种语音克隆模型在保持说话人身份方面存在挑战，尤其是在客观和主观评估指标上存在差距。
LatinX通过三阶段训练，包括预训练、监督微调和基于DPO的对齐，旨在提升跨语种语音克隆的说话人相似度。
实验结果表明，LatinX在降低WER和提高客观相似度方面优于基线，且人工评估显示其说话人相似度优于XTTSv2。

📝 摘要（中文）

本文提出LatinX，一个用于级联语音到语音翻译的多语种文本到语音（TTS）模型，该模型能够在不同语言中保留源说话人的身份。LatinX是一个12层解码器Transformer，训练分为三个阶段：（i）文本到音频映射的预训练，（ii）用于零样本语音克隆的监督微调，以及（iii）使用基于词错误率（WER）和说话人相似度指标自动标记的配对数据，通过直接偏好优化（DPO）进行对齐。LatinX在英语和罗曼语系上训练，重点是葡萄牙语，通过DPO对齐后，WER持续降低，并且客观相似度优于微调后的基线。人工评估进一步表明，感知到的说话人相似度比强大的基线（XTTSv2）更强，揭示了客观和主观测量之间的差距。我们提供了跨语言分析，并讨论了平衡的偏好信号和低延迟架构作为未来的工作。

🔬 方法详解

问题定义：论文旨在解决多语种文本到语音（TTS）模型在跨语种语音克隆任务中，如何更好地保持源说话人身份的问题。现有方法，如直接微调，可能无法充分对齐不同语言的语音特征，导致克隆出的语音在说话人相似度上表现不佳，尤其是在主观听感上与客观指标存在偏差。

核心思路：论文的核心思路是利用直接偏好优化（DPO）来对齐TTS模型，使其更好地学习不同语言之间的语音特征映射，从而在跨语种语音克隆时能够更准确地保留源说话人的身份。DPO通过优化模型参数，使其更倾向于生成具有更高说话人相似度的语音。

技术框架：LatinX模型是一个12层解码器Transformer，训练流程分为三个阶段： 1. 预训练：使用大量文本和语音数据进行预训练，学习文本到音频的映射关系。 2. 监督微调：使用少量带有说话人标签的数据进行监督微调，使模型具备初步的零样本语音克隆能力。 3. DPO对齐：使用自动标注的偏好数据（基于WER和说话人相似度指标），通过DPO算法对模型进行对齐，进一步提升说话人相似度。

关键创新：该论文的关键创新在于将直接偏好优化（DPO）应用于多语种TTS模型的训练，并使用自动标注的偏好数据进行对齐。与传统的微调方法相比，DPO能够更有效地学习说话人相似度的偏好，从而提升跨语种语音克隆的性能。

关键设计： * 偏好数据生成：使用WER和说话人相似度指标自动标注偏好数据，为DPO提供训练信号。 * DPO损失函数：采用标准的DPO损失函数，优化模型参数，使其更倾向于生成具有更高说话人相似度的语音。 * 模型架构：采用12层解码器Transformer，保证模型的表达能力。 * 训练数据：使用英语和罗曼语系数据进行训练，重点关注葡萄牙语。

📊 实验亮点

LatinX模型在跨语种语音克隆任务中取得了显著的性能提升。实验结果表明，与微调后的基线相比，LatinX通过DPO对齐后，WER持续降低，并且客观相似度得到提高。人工评估进一步表明，LatinX的说话人相似度优于强大的基线XTTSv2，表明DPO在提升主观听感方面具有优势。

🎯 应用场景

LatinX模型可应用于跨语种语音翻译、多语种语音助手、个性化语音合成等领域。该研究有助于提升跨语言交流的自然度和个性化程度，在娱乐、教育、客户服务等领域具有广泛的应用前景。未来，该技术有望应用于更多语种，并进一步提升语音克隆的真实度和自然度。

📄 摘要（原文）

We present LatinX, a multilingual text-to-speech (TTS) model for cascaded speech-to-speech translation that preserves the source speaker's identity across languages. LatinX is a 12-layer decoder-only Transformer trained in three stages: (i) pre-training for text-to-audio mapping, (ii) supervised fine-tuning for zero-shot voice cloning, and (iii) alignment with Direct Preference Optimization (DPO) using automatically labeled pairs based on Word Error Rate (WER) and speaker-similarity metrics. Trained on English and Romance languages with emphasis on Portuguese, LatinX with DPO consistently reduces WER and improves objective similarity over the fine-tuned baseline. Human evaluations further indicate stronger perceived speaker similarity than a strong baseline (XTTSv2), revealing gaps between objective and subjective measures. We provide cross-lingual analyses and discuss balanced preference signals and lower-latency architectures as future work.

LatinX: Aligning a Multilingual TTS Model with Direct Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册