Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

📄 arXiv: 2505.04621v1 📥 PDF

作者: Jessie Richter-Powell, Antonio Torralba, Jonathan Lorraine

分类: cs.SD, cs.AI, cs.LG, cs.MM, eess.AS

发布日期: 2025-05-07

备注: See the project website at https://research.nvidia.com/labs/toronto-ai/Audio-SDS/


💡 一句话要点

Audio-SDS:将Score Distillation Sampling推广至音频领域,实现音频源分离、合成等任务

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 音频生成 Score Distillation Sampling 音频扩散模型 源分离 音频合成

📋 核心要点

  1. 现有音频任务通常需要针对特定任务的专门数据集进行训练,泛化能力有限。
  2. Audio-SDS通过将预训练音频扩散模型的生成先验知识提炼到参数化表示中,实现任务泛化。
  3. 实验表明,Audio-SDS能够有效指导冲击声音模拟、校准FM合成参数以及进行音频源分离。

📝 摘要(中文)

本文提出Audio-SDS,是将Score Distillation Sampling (SDS) 推广到文本条件音频扩散模型的通用方法。虽然SDS最初是为使用图像扩散的文本到3D生成而设计的,但其将强大的生成先验知识提炼到单独的参数化表示中的核心思想可以扩展到音频领域。Audio-SDS利用单个预训练模型,无需专门的数据集即可实现广泛的任务。特别地,我们展示了Audio-SDS如何指导物理信息冲击声音模拟、校准FM合成参数以及执行提示指定的源分离。我们的发现说明了基于蒸馏的方法在不同模态中的通用性,并为未来在音频任务中使用生成先验知识的工作奠定了坚实的基础。

🔬 方法详解

问题定义:论文旨在解决音频领域中,模型训练依赖大量特定任务数据集的问题。现有方法通常需要为每个任务单独训练模型,成本高昂且泛化能力差。例如,音频源分离、特定音效合成等任务,都需要大量标注数据进行训练,限制了其应用范围。

核心思路:论文的核心思路是将Score Distillation Sampling (SDS) 从图像领域推广到音频领域。SDS的核心思想是将一个强大的生成先验(例如,预训练的扩散模型)提炼到一个更小的、参数化的模型中。通过这种方式,可以利用预训练模型的强大生成能力,而无需直接操作该模型。

技术框架:Audio-SDS的整体框架是利用预训练的文本条件音频扩散模型作为生成先验。给定一个文本提示,扩散模型可以生成相应的音频样本。Audio-SDS通过优化一个参数化的模型(例如,物理模拟器或FM合成器)来匹配扩散模型生成的音频样本的score。这个过程类似于将扩散模型的知识“蒸馏”到参数化模型中。主要模块包括:预训练音频扩散模型、参数化模型(例如,物理模拟器、FM合成器)和优化器。

关键创新:最重要的技术创新点是将SDS的概念从图像领域成功扩展到音频领域。这需要解决音频数据的一些特殊挑战,例如音频的时序性和高维性。此外,论文还展示了Audio-SDS在多个音频任务中的应用,证明了其通用性和有效性。与现有方法的本质区别在于,Audio-SDS不需要针对每个任务单独训练模型,而是利用一个预训练的扩散模型作为通用的生成先验。

关键设计:Audio-SDS的关键设计包括:(1) 使用预训练的文本条件音频扩散模型,例如,基于Transformer的扩散模型。(2) 定义一个合适的参数化模型,例如,用于冲击声音模拟的物理模拟器或用于FM合成的参数化合成器。(3) 使用合适的损失函数来衡量参数化模型生成的音频与扩散模型生成的音频之间的差异。常用的损失函数包括L2损失和感知损失。优化过程通常使用梯度下降算法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Audio-SDS能够有效地指导物理信息冲击声音模拟,生成逼真的冲击声音;能够校准FM合成参数,生成高质量的合成音乐;并且能够执行提示指定的音频源分离,将混合音频分解成独立的音源。这些结果证明了Audio-SDS在不同音频任务中的有效性和通用性。

🎯 应用场景

Audio-SDS具有广泛的应用前景,包括:音频内容创作、游戏音效设计、虚拟现实/增强现实、音频修复和增强等。该方法可以降低音频内容生成的门槛,提高音频生成的效率和质量。未来,Audio-SDS有望成为音频领域的一种通用工具,促进音频技术的创新和发展。

📄 摘要(原文)

We introduce Audio-SDS, a generalization of Score Distillation Sampling (SDS) to text-conditioned audio diffusion models. While SDS was initially designed for text-to-3D generation using image diffusion, its core idea of distilling a powerful generative prior into a separate parametric representation extends to the audio domain. Leveraging a single pretrained model, Audio-SDS enables a broad range of tasks without requiring specialized datasets. In particular, we demonstrate how Audio-SDS can guide physically informed impact sound simulations, calibrate FM-synthesis parameters, and perform prompt-specified source separation. Our findings illustrate the versatility of distillation-based methods across modalities and establish a robust foundation for future work using generative priors in audio tasks.