AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis
作者: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu
分类: cs.SD, cs.AI, eess.AS
发布日期: 2024-06-13 (更新: 2025-03-16)
备注: Accepted to NeurIPS 2024
💡 一句话要点
提出AV-GS模型,利用材质和几何先验实现新视角声学合成
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角声学合成 高斯溅射 音频引导 场景表示 双耳音频渲染
📋 核心要点
- 现有基于NeRF的新视角声学合成方法效率低,且难以充分捕捉场景的几何结构和材质属性。
- AV-GS模型通过学习显式的、基于高斯点的场景表示,并引入音频引导参数,从而获得材质和几何感知的条件。
- 实验结果表明,AV-GS在真实和仿真数据集上均优于现有方法,证明了其有效性。
📝 摘要(中文)
本文提出了一种新颖的音频-视觉高斯溅射(AV-GS)模型,用于新视角声学合成(NVAS)。NVAS旨在给定3D场景中声源发出的单声道音频,在任意目标视点渲染双耳音频。现有方法基于NeRF的隐式模型,利用视觉线索合成双耳音频,但效率低,且难以充分表征场景环境,如房间几何结构、材料属性以及听者和声源的空间关系。AV-GS通过在局部初始化的高斯点上学习一个音频引导参数,显式地表示场景,并考虑听者和声源的空间关系,从而获得材质和几何感知的音频合成条件。此外,提出了一种点云密度调整策略,优化高斯点的分布,使每个点对声音传播的贡献最大化。在真实世界的RWAS和基于仿真的SoundSpaces数据集上的大量实验验证了AV-GS优于现有方法。
🔬 方法详解
问题定义:新视角声学合成(NVAS)旨在根据3D场景中声源发出的单声道音频,在任意目标视点渲染双耳音频。现有方法主要基于NeRF,计算成本高昂,并且难以充分表征场景的几何结构、材料属性以及听者和声源的空间关系,导致合成的音频质量受限。
核心思路:本文的核心思路是利用高斯溅射(Gaussian Splatting)技术,显式地建模场景的几何和材质信息,并结合音频信息进行优化。通过这种方式,可以更高效地渲染场景,并更好地捕捉声音传播的关键因素。同时,引入音频引导参数,使模型能够自适应地调整场景表示,从而提高音频合成的准确性。
技术框架:AV-GS模型主要包含以下几个模块:1) 局部初始化高斯点:在场景中初始化一组高斯点,每个点包含位置、颜色、不透明度等属性。2) 音频引导参数学习:为每个高斯点学习一个音频引导参数,该参数用于描述该点对声音传播的影响。3) 点云密度调整:根据音频信息,动态地调整高斯点的密度,例如在纹理简单的墙面区域增加点云密度,以更好地模拟声音的反射和散射。4) 双耳音频渲染:利用高斯点的信息,结合听者和声源的位置,渲染双耳音频。
关键创新:AV-GS的关键创新在于:1) 提出了一种基于高斯溅射的显式场景表示方法,相比于NeRF,渲染效率更高。2) 引入了音频引导参数,使模型能够自适应地调整场景表示,从而更好地捕捉声音传播的关键因素。3) 提出了一种点云密度调整策略,根据音频信息动态地调整高斯点的密度,提高了音频合成的准确性。
关键设计:在局部初始化高斯点时,考虑了听者和声源的空间关系。音频引导参数可以通过一个小型神经网络学习得到,该网络的输入包括高斯点的位置、颜色和法向量等信息。点云密度调整策略可以基于梯度信息实现,例如在音频损失函数梯度较大的区域增加点云密度。损失函数包括音频重建损失和感知损失,以提高合成音频的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,AV-GS在RWAS和SoundSpaces数据集上均优于现有方法。例如,在RWAS数据集上,AV-GS在客观指标(如SI-SNR)和主观听觉测试(MOS)上均取得了显著提升。与基于NeRF的方法相比,AV-GS的渲染效率更高,且能够更好地捕捉场景的几何结构和材料属性。
🎯 应用场景
该研究成果可应用于虚拟现实(VR)、增强现实(AR)和游戏等领域,提供更逼真的沉浸式音频体验。例如,在VR游戏中,可以根据玩家的视角和场景环境,实时渲染出符合物理规律的双耳音频,增强游戏的真实感和代入感。此外,该技术还可用于声学场景重建、音频编辑和声音设计等领域。
📄 摘要(原文)
Novel view acoustic synthesis (NVAS) aims to render binaural audio at any target viewpoint, given a mono audio emitted by a sound source at a 3D scene. Existing methods have proposed NeRF-based implicit models to exploit visual cues as a condition for synthesizing binaural audio. However, in addition to low efficiency originating from heavy NeRF rendering, these methods all have a limited ability of characterizing the entire scene environment such as room geometry, material properties, and the spatial relation between the listener and sound source. To address these issues, we propose a novel Audio-Visual Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware condition for audio synthesis, we learn an explicit point-based scene representation with an audio-guidance parameter on locally initialized Gaussian points, taking into account the space relation from the listener and sound source. To make the visual scene model audio adaptive, we propose a point densification and pruning strategy to optimally distribute the Gaussian points, with the per-point contribution in sound propagation (e.g., more points needed for texture-less wall surfaces as they affect sound path diversion). Extensive experiments validate the superiority of our AV-GS over existing alternatives on the real-world RWAS and simulation-based SoundSpaces datasets.