Are Music Foundation Models Better at Singing Voice Deepfake Detection? Far-Better Fuse them with Speech Foundation Models

📄 arXiv: 2409.14131v1 📥 PDF

作者: Orchid Chetia Phukan, Sarthak Jain, Swarup Ranjan Behera, Arun Balaji Buduru, Rajesh Sharma, S. R Mahadeva Prasanna

分类: eess.AS, cs.LG, cs.SD

发布日期: 2024-09-21

备注: Submitted to ICASSP 2025


💡 一句话要点

提出FIONA框架,融合音乐和语音基础模型,提升歌声Deepfake检测性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 歌声Deepfake检测 音乐基础模型 语音基础模型 特征融合 说话人识别

📋 核心要点

  1. 歌声Deepfake检测面临挑战,现有方法难以充分利用音乐和语音信息的互补性。
  2. 提出FIONA框架,通过同步语音和音乐基础模型,提取互补特征,提升检测精度。
  3. 实验表明,FIONA框架在歌声Deepfake检测任务上取得了SOTA结果,EER降低至13.74%。

📝 摘要(中文)

本研究首次深入探讨了音乐基础模型(MFMs)和语音基础模型(SFMs)在歌声Deepfake检测(SVDD)中的表现。通过对最先进的MFMs (MERT变体和music2vec)和SFMs (预训练用于通用语音表征学习以及说话人识别)的全面比较研究,结果表明,说话人识别SFM表征在所有基础模型中表现最佳,这归因于其在捕捉歌声中的音高、音调、强度等特征方面具有更高的效率。此外,我们探索了基础模型的融合,以利用它们的互补行为来改进SVDD,并为此提出了一个新颖的框架FIONA。通过FIONA同步x-vector (说话人识别SFM)和MERT-v1-330M (MFM),我们报告了最佳性能,等错误率(EER)最低为13.74%,优于所有单独的基础模型以及基线FM融合,并实现了SOTA结果。

🔬 方法详解

问题定义:歌声Deepfake检测旨在区分真实歌声和伪造歌声。现有方法通常单独使用语音或音乐特征,忽略了二者之间的互补信息。此外,如何有效利用预训练的基础模型来提升检测性能也是一个挑战。

核心思路:论文的核心思路是融合语音和音乐基础模型,利用它们在不同方面的优势。说话人识别SFM擅长捕捉音高、音调等语音特征,而MFM则能提取音乐相关的特征。通过融合这两种信息,可以更全面地分析歌声,从而提高Deepfake检测的准确性。

技术框架:FIONA框架主要包含两个分支:一个分支使用说话人识别SFM (x-vector)提取语音特征,另一个分支使用MFM (MERT-v1-330M)提取音乐特征。然后,通过同步机制将这两个分支的特征进行融合。最后,使用一个分类器来判断歌声是否为Deepfake。

关键创新:FIONA框架的关键创新在于提出了一个有效融合语音和音乐基础模型的方法。通过同步x-vector和MERT-v1-330M,可以充分利用它们之间的互补性,从而提高Deepfake检测的性能。此外,该框架是首个针对歌声Deepfake检测任务,探索并融合语音和音乐基础模型的工作。

关键设计:论文中,x-vector使用预训练的说话人识别模型提取,MERT-v1-330M使用预训练的音乐表征模型。同步机制的具体实现方式未知,但其目的是将两个分支的特征对齐,以便更好地进行融合。分类器可以使用常见的机器学习模型,如支持向量机(SVM)或神经网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FIONA框架在歌声Deepfake检测任务上取得了显著的性能提升,等错误率(EER)降低至13.74%,优于所有单独的基础模型以及基线FM融合方法,达到了SOTA水平。这证明了融合语音和音乐基础模型对于提高歌声Deepfake检测准确性的有效性。

🎯 应用场景

该研究成果可应用于音乐版权保护、社交媒体内容审核、以及打击恶意伪造歌声等领域。通过提高歌声Deepfake检测的准确性,可以有效防止虚假信息的传播,维护音乐行业的健康发展,并保护用户的合法权益。未来,该技术还可扩展到其他类型的音频Deepfake检测任务中。

📄 摘要(原文)

In this study, for the first time, we extensively investigate whether music foundation models (MFMs) or speech foundation models (SFMs) work better for singing voice deepfake detection (SVDD), which has recently attracted attention in the research community. For this, we perform a comprehensive comparative study of state-of-the-art (SOTA) MFMs (MERT variants and music2vec) and SFMs (pre-trained for general speech representation learning as well as speaker recognition). We show that speaker recognition SFM representations perform the best amongst all the foundation models (FMs), and this performance can be attributed to its higher efficacy in capturing the pitch, tone, intensity, etc, characteristics present in singing voices. To our end, we also explore the fusion of FMs for exploiting their complementary behavior for improved SVDD, and we propose a novel framework, FIONA for the same. With FIONA, through the synchronization of x-vector (speaker recognition SFM) and MERT-v1-330M (MFM), we report the best performance with the lowest Equal Error Rate (EER) of 13.74 %, beating all the individual FMs as well as baseline FM fusions and achieving SOTA results.