AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

作者: Swapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

分类: cs.SD, cs.AI, eess.AS

发布日期: 2024-06-13 (更新: 2025-03-16)

备注: Accepted to NeurIPS 2024

💡 一句话要点

提出AV-GS模型，利用材质和几何先验实现新视角声学合成

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 新视角声学合成 高斯溅射 音频引导 场景表示 双耳音频渲染

📋 核心要点

现有基于NeRF的新视角声学合成方法效率低，且难以充分捕捉场景的几何结构和材质属性。
AV-GS模型通过学习显式的、基于高斯点的场景表示，并引入音频引导参数，从而获得材质和几何感知的条件。
实验结果表明，AV-GS在真实和仿真数据集上均优于现有方法，证明了其有效性。

📝 摘要（中文）

本文提出了一种新颖的音频-视觉高斯溅射（AV-GS）模型，用于新视角声学合成（NVAS）。NVAS旨在给定3D场景中声源发出的单声道音频，在任意目标视点渲染双耳音频。现有方法基于NeRF的隐式模型，利用视觉线索合成双耳音频，但效率低，且难以充分表征场景环境，如房间几何结构、材料属性以及听者和声源的空间关系。AV-GS通过在局部初始化的高斯点上学习一个音频引导参数，显式地表示场景，并考虑听者和声源的空间关系，从而获得材质和几何感知的音频合成条件。此外，提出了一种点云密度调整策略，优化高斯点的分布，使每个点对声音传播的贡献最大化。在真实世界的RWAS和基于仿真的SoundSpaces数据集上的大量实验验证了AV-GS优于现有方法。

🔬 方法详解

问题定义：新视角声学合成（NVAS）旨在根据3D场景中声源发出的单声道音频，在任意目标视点渲染双耳音频。现有方法主要基于NeRF，计算成本高昂，并且难以充分表征场景的几何结构、材料属性以及听者和声源的空间关系，导致合成的音频质量受限。

核心思路：本文的核心思路是利用高斯溅射（Gaussian Splatting）技术，显式地建模场景的几何和材质信息，并结合音频信息进行优化。通过这种方式，可以更高效地渲染场景，并更好地捕捉声音传播的关键因素。同时，引入音频引导参数，使模型能够自适应地调整场景表示，从而提高音频合成的准确性。

技术框架：AV-GS模型主要包含以下几个模块：1) 局部初始化高斯点：在场景中初始化一组高斯点，每个点包含位置、颜色、不透明度等属性。2) 音频引导参数学习：为每个高斯点学习一个音频引导参数，该参数用于描述该点对声音传播的影响。3) 点云密度调整：根据音频信息，动态地调整高斯点的密度，例如在纹理简单的墙面区域增加点云密度，以更好地模拟声音的反射和散射。4) 双耳音频渲染：利用高斯点的信息，结合听者和声源的位置，渲染双耳音频。

关键创新：AV-GS的关键创新在于：1) 提出了一种基于高斯溅射的显式场景表示方法，相比于NeRF，渲染效率更高。2) 引入了音频引导参数，使模型能够自适应地调整场景表示，从而更好地捕捉声音传播的关键因素。3) 提出了一种点云密度调整策略，根据音频信息动态地调整高斯点的密度，提高了音频合成的准确性。

关键设计：在局部初始化高斯点时，考虑了听者和声源的空间关系。音频引导参数可以通过一个小型神经网络学习得到，该网络的输入包括高斯点的位置、颜色和法向量等信息。点云密度调整策略可以基于梯度信息实现，例如在音频损失函数梯度较大的区域增加点云密度。损失函数包括音频重建损失和感知损失，以提高合成音频的质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，AV-GS在RWAS和SoundSpaces数据集上均优于现有方法。例如，在RWAS数据集上，AV-GS在客观指标（如SI-SNR）和主观听觉测试（MOS）上均取得了显著提升。与基于NeRF的方法相比，AV-GS的渲染效率更高，且能够更好地捕捉场景的几何结构和材料属性。

🎯 应用场景

该研究成果可应用于虚拟现实（VR）、增强现实（AR）和游戏等领域，提供更逼真的沉浸式音频体验。例如，在VR游戏中，可以根据玩家的视角和场景环境，实时渲染出符合物理规律的双耳音频，增强游戏的真实感和代入感。此外，该技术还可用于声学场景重建、音频编辑和声音设计等领域。

📄 摘要（原文）

Novel view acoustic synthesis (NVAS) aims to render binaural audio at any target viewpoint, given a mono audio emitted by a sound source at a 3D scene. Existing methods have proposed NeRF-based implicit models to exploit visual cues as a condition for synthesizing binaural audio. However, in addition to low efficiency originating from heavy NeRF rendering, these methods all have a limited ability of characterizing the entire scene environment such as room geometry, material properties, and the spatial relation between the listener and sound source. To address these issues, we propose a novel Audio-Visual Gaussian Splatting (AV-GS) model. To obtain a material-aware and geometry-aware condition for audio synthesis, we learn an explicit point-based scene representation with an audio-guidance parameter on locally initialized Gaussian points, taking into account the space relation from the listener and sound source. To make the visual scene model audio adaptive, we propose a point densification and pruning strategy to optimally distribute the Gaussian points, with the per-point contribution in sound propagation (e.g., more points needed for texture-less wall surfaces as they affect sound path diversion). Extensive experiments validate the superiority of our AV-GS over existing alternatives on the real-world RWAS and simulation-based SoundSpaces datasets.

AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理