DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model

📄 arXiv: 2502.18952v2 📥 PDF

作者: Lei Zhao, Sizhou Chen, Linfeng Feng, Jichao Zhang, Xiao-Lei Zhang, Chi Zhang, Xuelong Li

分类: cs.SD, cs.AI, eess.AS

发布日期: 2025-02-26 (更新: 2025-06-05)


💡 一句话要点

DualSpec:通过双频谱引导扩散模型实现文本到空间音频的生成

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本到空间音频 扩散模型 双频谱引导 空间音频生成 方位角精度

📋 核心要点

  1. 现有文本到音频(TTA)方法主要集中于单声道音频,缺乏沉浸式的空间音频生成能力。
  2. DualSpec框架利用双频谱引导扩散模型,结合Mel频谱图和STFT频谱图,提升空间音频的合成质量和方位角精度。
  3. 实验结果表明,DualSpec能够生成具有高方向一致性和事件一致性的空间音频,并提出了空间感知的评估指标。

📝 摘要(中文)

本文提出了一种名为DualSpec的文本到空间音频(TTSA)生成框架。该框架首先训练变分自编码器(VAEs)从声音事件音频中提取潜在的声学表示。然后,给定描述声音事件和事件方向的文本,该方法使用预训练的大型语言模型的编码器将文本转换为文本特征。最后,它从潜在的声学表示和文本特征训练扩散模型,用于空间音频生成。在推理阶段,只需要文本描述即可生成空间音频。特别地,为了同时提高空间声音事件的合成质量和方位角精度,我们提出使用两种声学特征:Mel频谱图,它擅长提高合成质量;以及短时傅里叶变换频谱图,它擅长提高方位角精度。我们提供了一个构建带有文本提示的空间音频数据集的流程,用于训练VAEs和扩散模型。我们还引入了新的空间感知评估指标,以量化生成的空间音频记录的方位角误差。实验结果表明,该方法可以生成具有高方向一致性和事件一致性的空间音频。

🔬 方法详解

问题定义:现有文本到音频生成方法主要集中于单声道音频,无法提供沉浸式的空间听觉体验。在虚拟现实等应用中,空间音频至关重要。因此,需要一种能够根据文本描述生成具有准确方位信息的空间音频的方法。

核心思路:DualSpec的核心思路是利用扩散模型,结合文本信息和两种不同的频谱特征(Mel频谱图和STFT频谱图)来生成空间音频。Mel频谱图擅长提高音频合成质量,而STFT频谱图擅长提高方位角精度。通过双频谱的引导,可以同时优化合成质量和方位角精度。

技术框架:DualSpec框架主要包含以下几个模块:1) VAE训练模块:使用变分自编码器(VAEs)从空间音频数据中提取潜在的声学表示。2) 文本特征提取模块:使用预训练的大型语言模型的编码器将文本描述转换为文本特征。3) 扩散模型训练模块:使用潜在的声学表示和文本特征训练扩散模型,用于空间音频生成。4) 推理阶段:仅需输入文本描述,即可通过训练好的扩散模型生成空间音频。

关键创新:DualSpec的关键创新在于:1) 提出了一个文本到空间音频的生成框架。2) 提出了使用双频谱(Mel频谱图和STFT频谱图)引导扩散模型,以同时提高合成质量和方位角精度。3) 提供了一个构建带有文本提示的空间音频数据集的流程。4) 引入了新的空间感知评估指标,以量化生成的空间音频记录的方位角误差。

关键设计:在VAE训练中,使用了标准的VAE结构,并针对空间音频数据进行了优化。在扩散模型训练中,使用了U-Net结构作为扩散模型的骨干网络,并将文本特征通过cross-attention机制融入到U-Net中。损失函数包括VAE的重构损失和KL散度损失,以及扩散模型的噪声预测损失。数据集构建过程中,需要精确标注声音事件的方位角信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DualSpec能够生成具有高方向一致性和事件一致性的空间音频。通过对比实验,验证了双频谱引导策略的有效性,即同时使用Mel频谱图和STFT频谱图可以显著提高合成质量和方位角精度。此外,提出的空间感知评估指标能够有效地量化生成的空间音频的方位角误差。

🎯 应用场景

DualSpec在虚拟现实、增强现实、游戏、电影制作等领域具有广泛的应用前景。它可以根据文本描述生成逼真的空间音频,增强用户的沉浸式体验。例如,在VR游戏中,可以根据游戏情节生成相应的环境音效和事件音效,并准确地定位声音来源,从而提升游戏的真实感和互动性。

📄 摘要(原文)

Text-to-audio (TTA), which generates audio signals from textual descriptions, has received huge attention in recent years. However, recent works focused on text to monaural audio only. As we know, spatial audio provides more immersive auditory experience than monaural audio, e.g. in virtual reality. To address this issue, we propose a text-to-spatial-audio (TTSA) generation framework named DualSpec. Specifically, it first trains variational autoencoders (VAEs) for extracting the latent acoustic representations from sound event audio. Then, given text that describes sound events and event directions, the proposed method uses the encoder of a pretrained large language model to transform the text into text features. Finally, it trains a diffusion model from the latent acoustic representations and text features for the spatial audio generation. In the inference stage, only the text description is needed to generate spatial audio. Particularly, to improve the synthesis quality and azimuth accuracy of the spatial sound events simultaneously, we propose to use two kinds of acoustic features. One is the Mel spectrograms which is good for improving the synthesis quality, and the other is the short-time Fourier transform spectrograms which is good at improving the azimuth accuracy. We provide a pipeline of constructing spatial audio dataset with text prompts, for the training of the VAEs and diffusion model. We also introduce new spatial-aware evaluation metrics to quantify the azimuth errors of the generated spatial audio recordings. Experimental results demonstrate that the proposed method can generate spatial audio with high directional and event consistency.