Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation

作者: Min-Jae Hwang, Ilia Kulikov, Benjamin Peloquin, Hongyu Gong, Peng-Jen Chen, Ann Lee

分类: cs.CL, cs.SD, eess.AS

发布日期: 2024-06-04

备注: Accepted to ACL 2024 (findings)

💡 一句话要点

提出基于自监督蒸馏的无文本声学模型，提升噪声环境下表现语音到语音翻译的鲁棒性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 语音翻译 自监督学习 噪声鲁棒性 语音合成 DINO 无文本声学模型 表现语音

📋 核心要点

现有的表现语音到语音翻译系统在噪声环境下性能显著下降，无法满足实际应用需求。
论文提出一种基于DINO自监督蒸馏的无文本声学模型，学习噪声无关的表现力表征。
实验结果表明，该方法在噪声环境下显著提升了翻译系统的性能，同时保持了在干净环境下的竞争力。

📝 摘要（中文）

本文提出了一种基于自监督蒸馏的无文本声学模型，用于提升噪声环境下表现语音到语音翻译（S2ST）的鲁棒性。最近的表现语音到语音翻译系统通过将单元到语音（U2S）生成器级联到语音到单元翻译模型，实现了令人印象深刻的表现力保留性能。然而，这些系统容易受到输入语音中噪声的影响，这在实际翻译场景中是一个常见假设。为了解决这个限制，我们提出了一种U2S生成器，它将一种无标签蒸馏（DINO）自监督训练策略融入到其预训练过程中。由于所提出的方法捕获了与噪声无关的表现力表示，因此即使在嘈杂的环境中也能生成高质量的语音。客观和主观评估结果验证了所提出的方法显著提高了表现语音到语音翻译系统在噪声环境中的性能，同时在干净环境中保持了有竞争力的性能。

🔬 方法详解

问题定义：现有的表现语音到语音翻译系统，特别是那些依赖级联单元到语音（U2S）生成器的系统，在输入语音存在噪声时表现不佳。这是因为噪声会干扰中间单元表示，导致最终生成的语音质量下降。因此，需要一种能够抵抗噪声干扰，保持语音表现力的翻译方法。

核心思路：论文的核心思路是利用自监督学习，特别是DINO（Distillation with no labels）方法，来预训练一个噪声鲁棒的U2S生成器。DINO通过在没有显式标签的情况下进行蒸馏，迫使模型学习更通用的、与噪声无关的语音表征。这样，即使输入语音包含噪声，U2S生成器也能生成高质量的语音。

技术框架：该方法的核心在于改进了U2S生成器。整体流程如下：首先，使用DINO自监督学习策略预训练U2S生成器，使其能够捕获噪声无关的表现力表征。然后，将预训练的U2S生成器与语音到单元翻译模型级联，构成完整的表现语音到语音翻译系统。在推理阶段，输入语音首先被翻译成单元序列，然后由U2S生成器将单元序列转换成目标语音。

关键创新：该方法最重要的创新点是将DINO自监督学习策略应用于U2S生成器的预训练，从而使其能够学习噪声鲁棒的语音表征。与传统的有监督训练方法相比，DINO不需要显式的标签，可以利用大量的无标签语音数据进行训练，从而提高模型的泛化能力和鲁棒性。

关键设计：DINO的训练目标是让学生网络模仿教师网络的输出，但教师网络本身也在不断更新，从而避免了模型坍塌。具体的损失函数包括一个蒸馏损失和一个centering loss，用于鼓励学生网络学习教师网络的分布，并防止输出过于集中。U2S生成器的网络结构可以采用Transformer或其他序列到序列模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在噪声环境下，该方法显著提高了表现语音到语音翻译系统的性能。客观指标和主观指标均显示，该方法生成的语音质量更高，表现力更强。同时，该方法在干净环境下也保持了有竞争力的性能，证明了其在各种环境下的适用性。

🎯 应用场景

该研究成果可应用于各种噪声环境下的语音翻译场景，例如嘈杂的会议、户外环境等。通过提升语音翻译系统的鲁棒性，可以改善用户体验，促进跨语言交流。此外，该技术还可以应用于语音增强、语音合成等领域，具有广泛的应用前景。

📄 摘要（原文）

In this paper, we propose a textless acoustic model with a self-supervised distillation strategy for noise-robust expressive speech-to-speech translation (S2ST). Recently proposed expressive S2ST systems have achieved impressive expressivity preservation performances by cascading unit-to-speech (U2S) generator to the speech-to-unit translation model. However, these systems are vulnerable to the presence of noise in input speech, which is an assumption in real-world translation scenarios. To address this limitation, we propose a U2S generator that incorporates a distillation with no label (DINO) self-supervised training strategy into it's pretraining process. Because the proposed method captures noise-agnostic expressivity representation, it can generate qualified speech even in noisy environment. Objective and subjective evaluation results verified that the proposed method significantly improved the performance of the expressive S2ST system in noisy environments while maintaining competitive performance in clean environments.

Textless Acoustic Model with Self-Supervised Distillation for Noise-Robust Expressive Speech-to-Speech Translation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理