WavFlow: Audio Generation in Waveform Space
作者: Feiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng
分类: cs.SD, cs.CV
发布日期: 2026-05-18
备注: Code: https://github.com/facebookresearch/WavFlow
💡 一句话要点
WavFlow:提出一种直接在波形空间生成音频的框架,无需中间表示。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频生成 波形空间 Flow Matching 多模态学习 视频配乐
📋 核心要点
- 现有音频生成方法依赖潜在空间压缩,引入复杂性并可能损失信息。
- WavFlow直接在原始波形空间生成音频,通过波形patchify和幅度提升解决高维低能量信号建模难题。
- 实验表明,WavFlow在VGGSound和AudioCaps数据集上达到或超过现有方法的性能。
📝 摘要(中文)
现代音频生成主要依赖于潜在空间压缩,这引入了额外的复杂性和潜在的信息损失。本文提出了WavFlow,一个直接在原始波形空间中生成高保真音频的框架,无需中间表示。为了克服建模高维和低能量信号的固有困难,通过波形patchify将音频重塑为2D token grids,并引入幅度提升来对齐信号尺度,从而通过flow matching中的直接x-prediction实现稳定的优化。为了捕获复杂的语义对齐和时间同步,利用自动化的数据管道来整理500万个高质量的视频-文本-音频三元组,使模型能够从头开始学习细粒度的声学模式。实验结果表明,WavFlow在视频到音频基准VGGSound(FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44)和文本到音频基准AudioCaps(FD_PANNs: 10.63, IS_PANNs: 12.62)上取得了具有竞争力的性能,匹配或超过了已建立的基于潜在空间的方法的性能。这项工作表明,中间压缩不是高质量合成的先决条件,为多模态音频生成提供了一种更简单和更具可扩展性的替代方案。
🔬 方法详解
问题定义:论文旨在解决音频生成中对中间潜在空间表示的依赖问题。现有方法通常先将音频压缩到潜在空间,然后再解码生成音频,这引入了额外的复杂性,并且可能导致信息损失,限制了生成音频的质量。此外,直接在原始波形空间中建模高维和低能量信号非常困难,容易导致训练不稳定。
核心思路:WavFlow的核心思路是直接在原始波形空间中生成音频,避免中间潜在空间表示。为了解决高维和低能量信号建模的挑战,论文提出了波形patchify和幅度提升技术。波形patchify将一维波形转换为二维token grids,幅度提升则用于对齐信号尺度,从而实现稳定的优化。
技术框架:WavFlow的整体框架包括以下几个主要模块:1) 数据预处理:使用自动化的数据管道整理高质量的视频-文本-音频三元组。2) 波形Patchify:将原始音频波形分割成小的patch,并将它们排列成2D token grids。3) 幅度提升:对音频信号进行幅度缩放,以对齐不同信号的尺度。4) Flow Matching:使用Flow Matching模型直接预测波形空间中的音频。
关键创新:WavFlow最重要的技术创新点在于直接在原始波形空间中进行音频生成,无需中间潜在空间表示。这简化了音频生成流程,并避免了潜在的信息损失。此外,波形patchify和幅度提升技术有效地解决了高维和低能量信号建模的挑战,使得直接波形空间生成成为可能。
关键设计:在数据预处理阶段,论文使用了包含500万个高质量视频-文本-音频三元组的数据集。波形patchify将音频分割成大小为N的patch,并排列成二维token grids。幅度提升使用线性缩放将信号幅度调整到一定范围。Flow Matching模型使用直接x-prediction进行训练,损失函数为标准的Flow Matching损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,WavFlow在VGGSound和AudioCaps数据集上取得了具有竞争力的性能。在VGGSound数据集上,WavFlow的FD_PaSST为59.98,IS_PANNs为17.40,DeSync为0.44。在AudioCaps数据集上,WavFlow的FD_PANNs为10.63,IS_PANNs为12.62。这些结果表明,WavFlow的性能与或超过了已建立的基于潜在空间的方法。
🎯 应用场景
WavFlow在多模态音频生成领域具有广泛的应用前景,例如视频配乐、语音合成、音乐创作等。该方法可以生成更高质量、更逼真的音频,提升用户体验。未来,WavFlow有望应用于虚拟现实、游戏开发、电影制作等领域,为这些领域带来更丰富的音频内容。
📄 摘要(原文)
Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.