Few-shot Acoustic Synthesis with Multimodal Flow Matching

作者: Amandine Brunetto

分类: cs.SD, cs.CV, eess.AS

发布日期: 2026-03-19

备注: To appear at CVPR 2026. 23 pages, 16 figures. Project Page: https://amandinebtto.github.io/FLAC/

💡 一句话要点

提出FLAC，利用多模态Flow Matching实现少样本声学合成

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 声学合成 房间脉冲响应 Flow Matching 少样本学习 扩散模型 几何一致性 虚拟现实 多模态学习

📋 核心要点

现有神经声场方法场景依赖性强，需要大量数据和高昂的训练成本，少样本方法也未能充分捕捉声学环境的不确定性。
FLAC利用Flow Matching训练扩散Transformer，以概率方式生成与场景上下文一致的房间脉冲响应（RIR）。
实验表明，FLAC在少样本条件下优于现有方法，并提出了新的评估指标AGREE，用于评估生成RIR的几何一致性。

📝 摘要（中文）

为实现沉浸式虚拟环境，生成与场景声学一致的音频至关重要。现有的神经声场方法虽然能够实现空间连续的声音渲染，但仍是场景特定的，需要密集的音频测量和昂贵的训练成本。少样本方法提高了跨房间的可扩展性，但仍然依赖于多次录音，并且由于是确定性的，无法捕捉稀疏上下文下场景声学的固有不确定性。我们引入了flow-matching声学生成（FLAC），这是一种概率性的少样本声学合成方法，用于在给定最小场景上下文的情况下，对合理的房间脉冲响应（RIR）的分布进行建模。FLAC利用一个通过flow-matching目标训练的扩散Transformer，以空间、几何和声学线索为条件，在新的场景中任意位置生成RIR。在AcousticRooms和Hearing Anything Anywhere数据集上，FLAC优于最先进的八样本基线，仅使用单样本。为了补充标准的感知指标，我们进一步引入了AGREE，一种联合声学-几何嵌入，通过检索和分布度量实现对生成RIR的几何一致性评估。这项工作是第一个将生成式flow matching应用于显式RIR合成的工作，为鲁棒和数据高效的声学合成建立了一个新的方向。

🔬 方法详解

问题定义：论文旨在解决在稀疏场景信息下，如何高效、鲁棒地生成与场景几何和声学特性一致的房间脉冲响应（RIR）的问题。现有方法，如神经声场方法，需要大量特定场景的音频数据进行训练，泛化能力差。而少样本方法虽然提高了泛化性，但依赖多次录音，且无法捕捉声学环境的固有不确定性。

核心思路：论文的核心思路是利用生成式Flow Matching，将RIR的生成过程建模为一个连续的概率分布变换过程。通过训练一个扩散Transformer，学习从噪声分布到真实RIR分布的映射。这种方法能够捕捉RIR生成过程中的不确定性，并利用少量的场景信息生成合理的RIR。Flow Matching提供了一种训练连续归一化流的有效方法，避免了传统GAN训练中的对抗过程，提高了训练的稳定性和生成质量。

技术框架：FLAC的整体框架包含以下几个主要模块：1) 场景上下文编码器：用于提取场景的空间、几何和声学特征。2) 扩散Transformer：作为生成器，学习从噪声分布到RIR分布的映射。3) Flow Matching训练：使用Flow Matching目标函数训练扩散Transformer，使其能够生成符合场景上下文的RIR。4) AGREE评估指标：用于评估生成RIR的几何一致性。

关键创新：论文的关键创新点在于：1) 将生成式Flow Matching应用于显式RIR合成，这是一种全新的方法。2) 提出了AGREE评估指标，用于评估生成RIR的几何一致性，弥补了现有评估指标的不足。3) 实现了在极少样本条件下，生成高质量、几何一致的RIR。

关键设计：扩散Transformer的网络结构基于标准的Transformer架构，并针对RIR生成任务进行了优化。Flow Matching的损失函数采用最小二乘形式，以提高训练的稳定性和生成质量。AGREE评估指标通过联合嵌入声学和几何信息，计算生成RIR与场景几何之间的相似度，从而评估其几何一致性。具体参数设置和网络结构细节在论文中有详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，FLAC在AcousticRooms和Hearing Anything Anywhere数据集上，仅使用单样本就优于最先进的八样本基线。此外，通过AGREE评估指标验证了生成RIR的几何一致性，表明FLAC能够生成与场景几何信息相符的声学环境。具体的性能提升数据在论文中有详细描述（未知）。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、增强现实、游戏开发等领域，为用户提供更加沉浸式的音频体验。通过少量场景信息即可生成逼真的声学环境，降低了内容制作的成本和复杂度。未来，该技术有望应用于智能家居、机器人等领域，提升设备与环境的交互能力。

📄 摘要（原文）

Generating audio that is acoustically consistent with a scene is essential for immersive virtual environments. Recent neural acoustic field methods enable spatially continuous sound rendering but remain scene-specific, requiring dense audio measurements and costly training for each environment. Few-shot approaches improve scalability across rooms but still rely on multiple recordings and, being deterministic, fail to capture the inherent uncertainty of scene acoustics under sparse context. We introduce flow-matching acoustic generation (FLAC), a probabilistic method for few-shot acoustic synthesis that models the distribution of plausible room impulse responses (RIRs) given minimal scene context. FLAC leverages a diffusion transformer trained with a flow-matching objective to generate RIRs at arbitrary positions in novel scenes, conditioned on spatial, geometric, and acoustic cues. FLAC outperforms state-of-the-art eight-shot baselines with one-shot on both the AcousticRooms and Hearing Anything Anywhere datasets. To complement standard perceptual metrics, we further introduce AGREE, a joint acoustic-geometry embedding, enabling geometry-consistent evaluation of generated RIRs through retrieval and distributional metrics. This work is the first to apply generative flow matching to explicit RIR synthesis, establishing a new direction for robust and data-efficient acoustic synthesis.

Few-shot Acoustic Synthesis with Multimodal Flow Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理