Few-shot Acoustic Synthesis with Multimodal Flow Matching
作者: Amandine Brunetto
分类: cs.SD, cs.CV, eess.AS
发布日期: 2026-03-19
备注: To appear at CVPR 2026. 23 pages, 16 figures. Project Page: https://amandinebtto.github.io/FLAC/
💡 一句话要点
提出FLAC,利用多模态Flow Matching实现少样本声学合成
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 声学合成 房间脉冲响应 Flow Matching 少样本学习 扩散模型 几何一致性 虚拟现实 多模态学习
📋 核心要点
- 现有神经声场方法场景依赖性强,需要大量数据和高昂的训练成本,少样本方法也未能充分捕捉声学环境的不确定性。
- FLAC利用Flow Matching训练扩散Transformer,以概率方式生成与场景上下文一致的房间脉冲响应(RIR)。
- 实验表明,FLAC在少样本条件下优于现有方法,并提出了新的评估指标AGREE,用于评估生成RIR的几何一致性。
📝 摘要(中文)
为实现沉浸式虚拟环境,生成与场景声学一致的音频至关重要。现有的神经声场方法虽然能够实现空间连续的声音渲染,但仍是场景特定的,需要密集的音频测量和昂贵的训练成本。少样本方法提高了跨房间的可扩展性,但仍然依赖于多次录音,并且由于是确定性的,无法捕捉稀疏上下文下场景声学的固有不确定性。我们引入了flow-matching声学生成(FLAC),这是一种概率性的少样本声学合成方法,用于在给定最小场景上下文的情况下,对合理的房间脉冲响应(RIR)的分布进行建模。FLAC利用一个通过flow-matching目标训练的扩散Transformer,以空间、几何和声学线索为条件,在新的场景中任意位置生成RIR。在AcousticRooms和Hearing Anything Anywhere数据集上,FLAC优于最先进的八样本基线,仅使用单样本。为了补充标准的感知指标,我们进一步引入了AGREE,一种联合声学-几何嵌入,通过检索和分布度量实现对生成RIR的几何一致性评估。这项工作是第一个将生成式flow matching应用于显式RIR合成的工作,为鲁棒和数据高效的声学合成建立了一个新的方向。
🔬 方法详解
问题定义:论文旨在解决在稀疏场景信息下,如何高效、鲁棒地生成与场景几何和声学特性一致的房间脉冲响应(RIR)的问题。现有方法,如神经声场方法,需要大量特定场景的音频数据进行训练,泛化能力差。而少样本方法虽然提高了泛化性,但依赖多次录音,且无法捕捉声学环境的固有不确定性。
核心思路:论文的核心思路是利用生成式Flow Matching,将RIR的生成过程建模为一个连续的概率分布变换过程。通过训练一个扩散Transformer,学习从噪声分布到真实RIR分布的映射。这种方法能够捕捉RIR生成过程中的不确定性,并利用少量的场景信息生成合理的RIR。Flow Matching提供了一种训练连续归一化流的有效方法,避免了传统GAN训练中的对抗过程,提高了训练的稳定性和生成质量。
技术框架:FLAC的整体框架包含以下几个主要模块:1) 场景上下文编码器:用于提取场景的空间、几何和声学特征。2) 扩散Transformer:作为生成器,学习从噪声分布到RIR分布的映射。3) Flow Matching训练:使用Flow Matching目标函数训练扩散Transformer,使其能够生成符合场景上下文的RIR。4) AGREE评估指标:用于评估生成RIR的几何一致性。
关键创新:论文的关键创新点在于:1) 将生成式Flow Matching应用于显式RIR合成,这是一种全新的方法。2) 提出了AGREE评估指标,用于评估生成RIR的几何一致性,弥补了现有评估指标的不足。3) 实现了在极少样本条件下,生成高质量、几何一致的RIR。
关键设计:扩散Transformer的网络结构基于标准的Transformer架构,并针对RIR生成任务进行了优化。Flow Matching的损失函数采用最小二乘形式,以提高训练的稳定性和生成质量。AGREE评估指标通过联合嵌入声学和几何信息,计算生成RIR与场景几何之间的相似度,从而评估其几何一致性。具体参数设置和网络结构细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FLAC在AcousticRooms和Hearing Anything Anywhere数据集上,仅使用单样本就优于最先进的八样本基线。此外,通过AGREE评估指标验证了生成RIR的几何一致性,表明FLAC能够生成与场景几何信息相符的声学环境。具体的性能提升数据在论文中有详细描述(未知)。
🎯 应用场景
该研究成果可广泛应用于虚拟现实、增强现实、游戏开发等领域,为用户提供更加沉浸式的音频体验。通过少量场景信息即可生成逼真的声学环境,降低了内容制作的成本和复杂度。未来,该技术有望应用于智能家居、机器人等领域,提升设备与环境的交互能力。
📄 摘要(原文)
Generating audio that is acoustically consistent with a scene is essential for immersive virtual environments. Recent neural acoustic field methods enable spatially continuous sound rendering but remain scene-specific, requiring dense audio measurements and costly training for each environment. Few-shot approaches improve scalability across rooms but still rely on multiple recordings and, being deterministic, fail to capture the inherent uncertainty of scene acoustics under sparse context. We introduce flow-matching acoustic generation (FLAC), a probabilistic method for few-shot acoustic synthesis that models the distribution of plausible room impulse responses (RIRs) given minimal scene context. FLAC leverages a diffusion transformer trained with a flow-matching objective to generate RIRs at arbitrary positions in novel scenes, conditioned on spatial, geometric, and acoustic cues. FLAC outperforms state-of-the-art eight-shot baselines with one-shot on both the AcousticRooms and Hearing Anything Anywhere datasets. To complement standard perceptual metrics, we further introduce AGREE, a joint acoustic-geometry embedding, enabling geometry-consistent evaluation of generated RIRs through retrieval and distributional metrics. This work is the first to apply generative flow matching to explicit RIR synthesis, establishing a new direction for robust and data-efficient acoustic synthesis.