WavFlow: Audio Generation in Waveform Space

作者: Feiyan Zhou, Luyuan Wang, Shoufa Chen, Zhe Wang, Zhiheng Liu, Yuren Cong, Xiaohui Zhang, Fanny Yang, Belinda Zeng

分类: cs.SD, cs.CV

发布日期: 2026-05-18

备注: Code: https://github.com/facebookresearch/WavFlow

💡 一句话要点

WavFlow：提出一种直接在波形空间生成音频的框架，无需中间表示。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频生成 波形空间 Flow Matching 多模态学习 视频配乐

📋 核心要点

现有音频生成方法依赖潜在空间压缩，引入复杂性并可能损失信息。
WavFlow直接在原始波形空间生成音频，通过波形patchify和幅度提升解决高维低能量信号建模难题。
实验表明，WavFlow在VGGSound和AudioCaps数据集上达到或超过现有方法的性能。

📝 摘要（中文）

现代音频生成主要依赖于潜在空间压缩，这引入了额外的复杂性和潜在的信息损失。本文提出了WavFlow，一个直接在原始波形空间中生成高保真音频的框架，无需中间表示。为了克服建模高维和低能量信号的固有困难，通过波形patchify将音频重塑为2D token grids，并引入幅度提升来对齐信号尺度，从而通过flow matching中的直接x-prediction实现稳定的优化。为了捕获复杂的语义对齐和时间同步，利用自动化的数据管道来整理500万个高质量的视频-文本-音频三元组，使模型能够从头开始学习细粒度的声学模式。实验结果表明，WavFlow在视频到音频基准VGGSound（FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44）和文本到音频基准AudioCaps（FD_PANNs: 10.63, IS_PANNs: 12.62）上取得了具有竞争力的性能，匹配或超过了已建立的基于潜在空间的方法的性能。这项工作表明，中间压缩不是高质量合成的先决条件，为多模态音频生成提供了一种更简单和更具可扩展性的替代方案。

🔬 方法详解

问题定义：论文旨在解决音频生成中对中间潜在空间表示的依赖问题。现有方法通常先将音频压缩到潜在空间，然后再解码生成音频，这引入了额外的复杂性，并且可能导致信息损失，限制了生成音频的质量。此外，直接在原始波形空间中建模高维和低能量信号非常困难，容易导致训练不稳定。

核心思路：WavFlow的核心思路是直接在原始波形空间中生成音频，避免中间潜在空间表示。为了解决高维和低能量信号建模的挑战，论文提出了波形patchify和幅度提升技术。波形patchify将一维波形转换为二维token grids，幅度提升则用于对齐信号尺度，从而实现稳定的优化。

技术框架：WavFlow的整体框架包括以下几个主要模块：1) 数据预处理：使用自动化的数据管道整理高质量的视频-文本-音频三元组。2) 波形Patchify：将原始音频波形分割成小的patch，并将它们排列成2D token grids。3) 幅度提升：对音频信号进行幅度缩放，以对齐不同信号的尺度。4) Flow Matching：使用Flow Matching模型直接预测波形空间中的音频。

关键创新：WavFlow最重要的技术创新点在于直接在原始波形空间中进行音频生成，无需中间潜在空间表示。这简化了音频生成流程，并避免了潜在的信息损失。此外，波形patchify和幅度提升技术有效地解决了高维和低能量信号建模的挑战，使得直接波形空间生成成为可能。

关键设计：在数据预处理阶段，论文使用了包含500万个高质量视频-文本-音频三元组的数据集。波形patchify将音频分割成大小为N的patch，并排列成二维token grids。幅度提升使用线性缩放将信号幅度调整到一定范围。Flow Matching模型使用直接x-prediction进行训练，损失函数为标准的Flow Matching损失函数。

🖼️ 关键图片

📊 实验亮点

实验结果表明，WavFlow在VGGSound和AudioCaps数据集上取得了具有竞争力的性能。在VGGSound数据集上，WavFlow的FD_PaSST为59.98，IS_PANNs为17.40，DeSync为0.44。在AudioCaps数据集上，WavFlow的FD_PANNs为10.63，IS_PANNs为12.62。这些结果表明，WavFlow的性能与或超过了已建立的基于潜在空间的方法。

🎯 应用场景

WavFlow在多模态音频生成领域具有广泛的应用前景，例如视频配乐、语音合成、音乐创作等。该方法可以生成更高质量、更逼真的音频，提升用户体验。未来，WavFlow有望应用于虚拟现实、游戏开发、电影制作等领域，为这些领域带来更丰富的音频内容。

📄 摘要（原文）

Modern audio generation predominantly relies on latent-space compression, introducing additional complexity and potential information loss. In this work, we challenge this paradigm with WavFlow, a framework that generates high-fidelity audio directly in raw waveform space without intermediate representations. To overcome the inherent difficulties of modeling high-dimensional and low-energy signals, we reshape audio into 2D token grids through waveform patchify and introduce amplitude lifting to align signal scales, enabling stable optimization via direct x-prediction in flow matching. To capture complex semantic alignment and temporal synchronization, we leverage an automated data pipeline to curate 5 million high-quality video-text-audio triplets, allowing the model to learn fine-grained acoustic patterns from scratch. Experimental results show that WavFlow achieves competitive performance on the video-to-audio benchmark VGGSound (FD_PaSST: 59.98, IS_PANNs: 17.40, DeSync: 0.44) and the text-to-audio benchmark AudioCaps (FD_PANNs: 10.63, IS_PANNs: 12.62), matching or exceeding the performance of established latent-based methods. Our work demonstrates that intermediate compression is not a prerequisite for high-quality synthesis, offering a simpler and more scalable alternative for multimodal audio generation.

WavFlow: Audio Generation in Waveform Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理