Audio-3DVG: Unified Audio -- Point Cloud Fusion for 3D Visual Grounding

作者: Duc Cao-Dinh, Khai Le-Duc, Anh Dao, Bach Phan Tat, Chris Ngo, Duy M. H. Nguyen, Nguyen X. Khanh, Thanh Nguyen-Tang

分类: cs.LG, cs.AI, cs.CV, cs.RO

发布日期: 2025-07-01 (更新: 2025-08-13)

备注: Preprint, 51 pages

💡 一句话要点

提出Audio-3DVG框架，融合音频与点云信息，提升3D视觉定位性能

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D视觉定位 音频理解 点云处理 多模态融合 注意力机制 对象提及检测 语音识别

📋 核心要点

现有3D视觉定位方法主要依赖文本描述，忽略了口语信息的潜力，在复杂场景下定位精度受限。
Audio-3DVG框架通过对象提及检测和音频引导注意力机制，有效融合音频和点云信息，提升定位准确性。
实验表明，Audio-3DVG在合成音频数据集上取得了领先性能，并可与基于文本的方法相媲美。

📝 摘要（中文）

3D视觉定位(3DVG)旨在根据自然语言在3D点云中定位目标对象。虽然先前的工作在使用文本描述方面取得了进展，但利用口语（即基于音频的3D视觉定位）仍然未被充分探索且具有挑战性。受自动语音识别(ASR)和语音表征学习的进步的推动，我们提出了Audio-3DVG，一个简单而有效的框架，它集成了音频和空间信息以增强定位。我们没有将语音视为单一输入，而是将任务分解为两个互补的组成部分。首先，我们引入了(i)对象提及检测，这是一个多标签分类任务，它明确地识别音频中提到的对象，从而实现更结构化的音频-场景推理。其次，我们提出了(ii)音频引导的注意力模块，该模块对目标候选对象和提及对象之间的交互进行建模，从而增强了在杂乱的3D环境中的区分能力。为了支持基准测试，我们(iii)为标准3DVG数据集（包括ScanRefer、Sr3D和Nr3D）合成了音频描述。实验结果表明，Audio-3DVG不仅在基于音频的定位方面取得了新的最先进的性能，而且可以与基于文本的方法竞争，突出了将口语集成到3D视觉任务中的前景。

🔬 方法详解

问题定义：3D视觉定位（3DVG）旨在根据自然语言描述在3D点云场景中定位目标对象。现有方法主要依赖文本描述，忽略了口语信息的潜力。在复杂场景下，文本描述可能不够精确，导致定位精度下降。此外，如何有效融合音频和3D点云信息也是一个挑战。

核心思路：论文的核心思路是将音频信息融入3D视觉定位任务中，利用音频中包含的对象提及信息来引导定位过程。通过显式地检测音频中提到的对象，并利用这些信息来增强目标候选对象和提及对象之间的交互，从而提高定位的准确性和鲁棒性。这种方法将语音理解和3D场景理解相结合，充分利用了多模态信息的优势。

技术框架：Audio-3DVG框架主要包含以下几个模块：1) 音频编码器：用于提取音频特征。2) 对象提及检测模块：这是一个多标签分类器，用于识别音频中提到的对象。3) 点云编码器：用于提取3D点云特征。4) 音频引导注意力模块：该模块利用对象提及检测的结果，计算目标候选对象和提及对象之间的注意力权重，从而增强目标候选对象的特征表示。5) 定位模块：根据增强后的目标候选对象特征，预测目标对象的概率分布。

关键创新：该论文的关键创新在于：1) 提出了对象提及检测任务，显式地识别音频中提到的对象，为音频-场景推理提供了结构化信息。2) 提出了音频引导注意力模块，有效地融合了音频和点云信息，增强了目标候选对象的区分能力。3) 构建了合成音频数据集，为基于音频的3D视觉定位研究提供了基准。

关键设计：对象提及检测模块使用多层感知机（MLP）作为分类器，损失函数采用二元交叉熵损失。音频引导注意力模块使用Transformer结构，计算目标候选对象和提及对象之间的注意力权重。点云编码器可以使用PointNet++等现有的点云特征提取网络。为了生成合成音频数据，使用了文本到语音（TTS）模型。

🖼️ 关键图片

📊 实验亮点

Audio-3DVG在合成音频数据集ScanRefer、Sr3D和Nr3D上取得了新的state-of-the-art性能。实验结果表明，该方法不仅优于现有的基于音频的3D视觉定位方法，而且可以与基于文本的方法相媲美，证明了音频信息在3D视觉定位中的有效性。

🎯 应用场景

Audio-3DVG技术可应用于智能家居、机器人导航、虚拟现实等领域。例如，用户可以通过语音指令让机器人找到特定物体，或者在VR环境中通过语音与虚拟场景进行交互。该技术有助于提升人机交互的自然性和效率，并为3D场景理解提供更丰富的信息。

📄 摘要（原文）

3D Visual Grounding (3DVG) involves localizing target objects in 3D point clouds based on natural language. While prior work has made strides using textual descriptions, leveraging spoken language-known as Audio-based 3D Visual Grounding-remains underexplored and challenging. Motivated by advances in automatic speech recognition (ASR) and speech representation learning, we propose Audio-3DVG, a simple yet effective framework that integrates audio and spatial information for enhanced grounding. Rather than treating speech as a monolithic input, we decompose the task into two complementary components. First, we introduce (i) Object Mention Detection, a multi-label classification task that explicitly identifies which objects are referred to in the audio, enabling more structured audio-scene reasoning. Second, we propose an (ii) Audio-Guided Attention module that models the interactions between target candidates and mentioned objects, enhancing discrimination in cluttered 3D environments. To support benchmarking, we (iii) synthesize audio descriptions for standard 3DVG datasets, including ScanRefer, Sr3D, and Nr3D. Experimental results demonstrate that Audio-3DVG not only achieves new state-of-the-art performance in audio-based grounding, but also competes with text-based methods, highlight the promise of integrating spoken language into 3D vision tasks.

Audio-3DVG: Unified Audio -- Point Cloud Fusion for 3D Visual Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理