DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

作者: Ismail Rasim Ulgen, Zexin Cai, Nicholas Andrews, Philipp Koehn, Berrak Sisman

分类: eess.AS, cs.LG, cs.SD

发布日期: 2026-04-29

备注: Submitted to Interspeech 2026

💡 一句话要点

DiffAnon：一种基于扩散模型的语音匿名化方法，可控韵律保留程度。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 语音匿名化 扩散模型 无分类器引导 韵律控制 隐私保护

📋 核心要点

语音匿名化中，韵律的保留与否是一个核心问题，它既包含意义和情感，又与说话人身份紧密相关。
DiffAnon利用扩散模型和无分类器引导，在推理时提供对韵律保留程度的连续控制，实现效用-隐私的权衡。
实验表明，DiffAnon在可控的操作点上，实现了强大的效用，同时保持了具有竞争力的隐私保护能力。

📝 摘要（中文）

本文提出了一种基于扩散的语音匿名化方法DiffAnon，该方法利用无分类器引导（CFG）实现对韵律保留的显式、连续的推理时控制。在单个模型中，DiffAnon通过细化RVQ编码器的语义嵌入上的声学细节，从而实现匿名化强度和韵律保真度之间的平滑插值。据我们所知，这是第一个提供结构化、可插值推理时韵律控制的语音匿名化框架。实验表明，DiffAnon在可控的操作点上实现了强大的效用，同时保持了具有竞争力的隐私。

🔬 方法详解

问题定义：语音匿名化的目标是在保护说话人身份信息的同时，尽可能保留语音中的有用信息。现有方法要么完全丢弃韵律信息以追求隐私，要么缺乏一种原则性的机制来控制效用和隐私之间的权衡，只能在固定的设计点上运行。因此，如何实现对韵律保留程度的灵活控制，是当前语音匿名化方法面临的一个重要挑战。

核心思路：DiffAnon的核心思路是利用扩散模型强大的生成能力，将语音匿名化过程建模为一个条件生成问题。通过无分类器引导（CFG），DiffAnon可以在推理时显式地控制韵律信息的保留程度。具体来说，CFG允许模型在生成语音时，根据引导信号（例如，韵律保留的强度）来调整生成过程，从而实现对韵律信息的灵活控制。

技术框架：DiffAnon的整体框架包括以下几个主要模块：1）RVQ编码器：将原始语音转换为语义嵌入；2）扩散模型：基于语义嵌入生成声学细节；3）无分类器引导：在推理时控制韵律信息的保留程度。整个流程如下：首先，使用RVQ编码器将原始语音转换为语义嵌入。然后，使用扩散模型基于语义嵌入生成声学细节。最后，在推理时，使用无分类器引导来控制韵律信息的保留程度，从而实现语音匿名化。

关键创新：DiffAnon最重要的创新点在于其提供了一种结构化的、可插值的推理时韵律控制机制。与现有方法相比，DiffAnon允许用户在推理时根据实际需求，灵活地调整韵律信息的保留程度，从而实现效用和隐私之间的最佳权衡。此外，DiffAnon是第一个将扩散模型应用于语音匿名化领域的框架，充分利用了扩散模型强大的生成能力。

关键设计：DiffAnon的关键设计包括：1）使用RVQ编码器来提取语音的语义嵌入，从而将语音分解为语义信息和声学细节；2）使用扩散模型来生成声学细节，从而实现对语音的重构；3）使用无分类器引导来控制韵律信息的保留程度，从而实现效用和隐私之间的权衡。具体的损失函数和网络结构等细节在论文中有详细描述，此处不再赘述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DiffAnon在可控的操作点上实现了强大的效用，同时保持了具有竞争力的隐私保护能力。具体来说，DiffAnon在保证语音质量的同时，能够有效地降低说话人识别的准确率，从而保护说话人的身份信息。此外，DiffAnon还能够实现匿名化强度和韵律保真度之间的平滑插值，从而满足不同应用场景的需求。

🎯 应用场景

DiffAnon在多个领域具有广泛的应用前景，例如：1）保护语音数据的隐私，例如在医疗、金融等敏感领域；2）实现语音数据的匿名化共享，促进语音技术的研究和发展；3）在语音助手等应用中，保护用户隐私的同时，提供个性化的语音服务。DiffAnon的出现，为语音匿名化领域的研究和应用带来了新的思路。

📄 摘要（原文）

To preserve or not to preserve prosody is a central question in voice anonymization. Prosody conveys meaning and affect, yet is tightly coupled with speaker identity. Existing methods either discard prosody for privacy or lack a principled mechanism to control the utility-privacy trade-off, operating at fixed design points. We propose DiffAnon, a diffusion-based anonymization method with classifier-free guidance (CFG) that provides explicit, continuous inference-time control over prosody preservation. DiffAnon refines acoustic detail over semantic embeddings of an RVQ codec, enabling smooth interpolation between anonymization strength and prosodic fidelity within a single model. To the best of our knowledge, it is the first voice anonymization framework to provide structured, interpolatable inference-time prosody control. Experiments demonstrate structured trade-off behavior, achieving strong utility while maintaining competitive privacy across controllable operating points.

DiffAnon: Diffusion-based Prosody Control for Voice Anonymization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理