DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

📄 arXiv: 2604.26281v1 📥 PDF

作者: Ismail Rasim Ulgen, Zexin Cai, Nicholas Andrews, Philipp Koehn, Berrak Sisman

分类: eess.AS, cs.LG, cs.SD

发布日期: 2026-04-29

备注: Submitted to Interspeech 2026


💡 一句话要点

DiffAnon:一种基于扩散模型的语音匿名化方法,可控韵律保留程度。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 语音匿名化 扩散模型 无分类器引导 韵律控制 隐私保护

📋 核心要点

  1. 语音匿名化中,韵律的保留与否是一个核心问题,它既包含意义和情感,又与说话人身份紧密相关。
  2. DiffAnon利用扩散模型和无分类器引导,在推理时提供对韵律保留程度的连续控制,实现效用-隐私的权衡。
  3. 实验表明,DiffAnon在可控的操作点上,实现了强大的效用,同时保持了具有竞争力的隐私保护能力。

📝 摘要(中文)

本文提出了一种基于扩散的语音匿名化方法DiffAnon,该方法利用无分类器引导(CFG)实现对韵律保留的显式、连续的推理时控制。在单个模型中,DiffAnon通过细化RVQ编码器的语义嵌入上的声学细节,从而实现匿名化强度和韵律保真度之间的平滑插值。据我们所知,这是第一个提供结构化、可插值推理时韵律控制的语音匿名化框架。实验表明,DiffAnon在可控的操作点上实现了强大的效用,同时保持了具有竞争力的隐私。

🔬 方法详解

问题定义:语音匿名化的目标是在保护说话人身份信息的同时,尽可能保留语音中的有用信息。现有方法要么完全丢弃韵律信息以追求隐私,要么缺乏一种原则性的机制来控制效用和隐私之间的权衡,只能在固定的设计点上运行。因此,如何实现对韵律保留程度的灵活控制,是当前语音匿名化方法面临的一个重要挑战。

核心思路:DiffAnon的核心思路是利用扩散模型强大的生成能力,将语音匿名化过程建模为一个条件生成问题。通过无分类器引导(CFG),DiffAnon可以在推理时显式地控制韵律信息的保留程度。具体来说,CFG允许模型在生成语音时,根据引导信号(例如,韵律保留的强度)来调整生成过程,从而实现对韵律信息的灵活控制。

技术框架:DiffAnon的整体框架包括以下几个主要模块:1)RVQ编码器:将原始语音转换为语义嵌入;2)扩散模型:基于语义嵌入生成声学细节;3)无分类器引导:在推理时控制韵律信息的保留程度。整个流程如下:首先,使用RVQ编码器将原始语音转换为语义嵌入。然后,使用扩散模型基于语义嵌入生成声学细节。最后,在推理时,使用无分类器引导来控制韵律信息的保留程度,从而实现语音匿名化。

关键创新:DiffAnon最重要的创新点在于其提供了一种结构化的、可插值的推理时韵律控制机制。与现有方法相比,DiffAnon允许用户在推理时根据实际需求,灵活地调整韵律信息的保留程度,从而实现效用和隐私之间的最佳权衡。此外,DiffAnon是第一个将扩散模型应用于语音匿名化领域的框架,充分利用了扩散模型强大的生成能力。

关键设计:DiffAnon的关键设计包括:1)使用RVQ编码器来提取语音的语义嵌入,从而将语音分解为语义信息和声学细节;2)使用扩散模型来生成声学细节,从而实现对语音的重构;3)使用无分类器引导来控制韵律信息的保留程度,从而实现效用和隐私之间的权衡。具体的损失函数和网络结构等细节在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DiffAnon在可控的操作点上实现了强大的效用,同时保持了具有竞争力的隐私保护能力。具体来说,DiffAnon在保证语音质量的同时,能够有效地降低说话人识别的准确率,从而保护说话人的身份信息。此外,DiffAnon还能够实现匿名化强度和韵律保真度之间的平滑插值,从而满足不同应用场景的需求。

🎯 应用场景

DiffAnon在多个领域具有广泛的应用前景,例如:1)保护语音数据的隐私,例如在医疗、金融等敏感领域;2)实现语音数据的匿名化共享,促进语音技术的研究和发展;3)在语音助手等应用中,保护用户隐私的同时,提供个性化的语音服务。DiffAnon的出现,为语音匿名化领域的研究和应用带来了新的思路。

📄 摘要(原文)

To preserve or not to preserve prosody is a central question in voice anonymization. Prosody conveys meaning and affect, yet is tightly coupled with speaker identity. Existing methods either discard prosody for privacy or lack a principled mechanism to control the utility-privacy trade-off, operating at fixed design points. We propose DiffAnon, a diffusion-based anonymization method with classifier-free guidance (CFG) that provides explicit, continuous inference-time control over prosody preservation. DiffAnon refines acoustic detail over semantic embeddings of an RVQ codec, enabling smooth interpolation between anonymization strength and prosodic fidelity within a single model. To the best of our knowledge, it is the first voice anonymization framework to provide structured, interpolatable inference-time prosody control. Experiments demonstrate structured trade-off behavior, achieving strong utility while maintaining competitive privacy across controllable operating points.