BinauralFlow: A Causal and Streamable Approach for High-Quality Binaural Speech Synthesis with Flow Matching Models
作者: Susan Liang, Dejan Markovic, Israel D. Gebru, Steven Krenn, Todd Keebler, Jacob Sandakly, Frank Yu, Samuel Hassel, Chenliang Xu, Alexander Richard
分类: cs.SD, cs.AI, eess.AS
发布日期: 2025-05-28
备注: ICML 2025, 18 pages
💡 一句话要点
BinauralFlow:基于流匹配模型的高质量、因果、流式双耳语音合成方法
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 双耳语音合成 流匹配模型 因果U-Net 流式推理 音频生成
📋 核心要点
- 现有双耳渲染方法在高质量音频合成和流式推理上存在挑战,难以同时兼顾精确的双耳线索建模和实时性。
- BinauralFlow将双耳渲染视为生成问题,利用条件流匹配模型生成高质量音频,并设计因果U-Net架构实现流式推理。
- 实验结果表明,BinauralFlow在双耳语音合成质量上超越了现有方法,在感知上与真实录音高度接近,混淆率仅为42%。
📝 摘要(中文)
双耳渲染旨在基于单声道音频以及说话者和听者的位置,合成模仿自然听觉的双耳音频。尽管已经提出了许多解决这个问题的方法,但它们在渲染质量和流式推理方面存在困难。合成与真实世界录音无法区分的高质量双耳音频需要精确地建模双耳线索、房间混响和环境声音。此外,实际应用需要流式推理。为了解决这些挑战,我们提出了一个基于流匹配的流式双耳语音合成框架,称为BinauralFlow。我们将双耳渲染视为一个生成问题,而不是一个回归问题,并设计了一个条件流匹配模型来渲染高质量音频。此外,我们设计了一个因果U-Net架构,该架构仅基于过去的信息来估计当前的音频帧,从而为流式推理定制生成模型。最后,我们引入了一个连续推理管道,包括流式STFT/ISTFT操作、一个缓冲库、一个中点求解器和一个提前跳过调度,以提高渲染的连续性和速度。定量和定性评估表明,我们的方法优于SOTA方法。感知研究进一步表明,我们的模型几乎与真实世界的录音无法区分,混淆率为42%。
🔬 方法详解
问题定义:论文旨在解决高质量、流式双耳语音合成问题。现有方法难以同时保证合成音频的真实感(精确建模双耳线索、混响等)和实时性(流式推理)。传统方法通常将双耳渲染视为回归问题,难以捕捉复杂的声音生成过程。
核心思路:论文将双耳渲染视为一个条件生成问题,利用流匹配模型学习从噪声到目标双耳音频的映射。通过设计因果U-Net结构,确保模型仅依赖过去的信息进行预测,从而实现流式推理。此外,引入连续推理管道优化渲染的连续性和速度。
技术框架:BinauralFlow框架包含以下主要模块:1) 条件流匹配模型:用于生成高质量双耳音频;2) 因果U-Net:作为流匹配模型的骨干网络,确保因果性;3) 流式STFT/ISTFT:用于音频信号的时频转换;4) 缓冲库:存储历史音频帧,供因果U-Net使用;5) 中点求解器:用于加速流匹配模型的采样过程;6) 提前跳过调度:进一步优化推理速度。
关键创新:1) 将双耳渲染视为生成问题,而非回归问题,更符合声音的产生机制;2) 设计因果U-Net架构,实现流式推理,满足实时应用需求;3) 提出连续推理管道,优化渲染的连续性和速度。
关键设计:条件流匹配模型使用连续时间归一化流(Continuous Time Normalizing Flow, CTNF),通过求解常微分方程(Ordinary Differential Equation, ODE)实现噪声到目标音频的映射。因果U-Net采用masked convolution确保因果性。损失函数采用标准的流匹配损失。连续推理管道中的缓冲库大小、中点求解器的步数、提前跳过调度的策略等参数需要根据具体应用场景进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BinauralFlow在客观指标(如Frechet Audio Distance, FAD)和主观听觉测试中均优于现有方法。感知研究表明,BinauralFlow生成的双耳音频与真实录音的混淆率高达42%,表明其合成质量已经非常接近真实水平。此外,该模型能够实现流式推理,满足实时应用的需求。
🎯 应用场景
BinauralFlow具有广泛的应用前景,包括虚拟现实/增强现实(VR/AR)、游戏、远程会议、助听设备等。它可以为用户提供更具沉浸感和真实感的听觉体验,增强临场感和交互性。该研究的突破将推动双耳音频技术在各个领域的应用,并有望改善听力受损人士的生活质量。
📄 摘要(原文)
Binaural rendering aims to synthesize binaural audio that mimics natural hearing based on a mono audio and the locations of the speaker and listener. Although many methods have been proposed to solve this problem, they struggle with rendering quality and streamable inference. Synthesizing high-quality binaural audio that is indistinguishable from real-world recordings requires precise modeling of binaural cues, room reverb, and ambient sounds. Additionally, real-world applications demand streaming inference. To address these challenges, we propose a flow matching based streaming binaural speech synthesis framework called BinauralFlow. We consider binaural rendering to be a generation problem rather than a regression problem and design a conditional flow matching model to render high-quality audio. Moreover, we design a causal U-Net architecture that estimates the current audio frame solely based on past information to tailor generative models for streaming inference. Finally, we introduce a continuous inference pipeline incorporating streaming STFT/ISTFT operations, a buffer bank, a midpoint solver, and an early skip schedule to improve rendering continuity and speed. Quantitative and qualitative evaluations demonstrate the superiority of our method over SOTA approaches. A perceptual study further reveals that our model is nearly indistinguishable from real-world recordings, with a $42\%$ confusion rate.