Semantic Audio-Visual Navigation in Continuous Environments
作者: Yichen Zeng, Hebaixu Wang, Meng Liu, Yu Zhou, Chen Gao, Kehan Chen, Gongping Huang
分类: cs.CV
发布日期: 2026-03-20
备注: This paper has been accepted to CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出MAGNet,解决连续环境中语义音频-视觉导航中目标信息丢失问题。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 音频-视觉导航 连续环境 多模态融合 Transformer网络 目标推理
📋 核心要点
- 现有音频-视觉导航方法依赖预计算RIRs,限制了智能体在离散位置的移动,导致观察结果在空间上不连续。
- 论文提出MAGNet,利用多模态Transformer联合编码空间和语义目标表示,并结合历史信息和自运动线索进行目标推理。
- 实验表明,MAGNet在连续环境导航中显著优于现有方法,成功率提升高达12.1%,并对短时声音和长距离导航具有鲁棒性。
📝 摘要(中文)
本文提出了一种在连续环境中进行语义音频-视觉导航(SAVN-CE)的新方法。与现有方法依赖预计算的房间脉冲响应(RIRs)进行双耳音频渲染不同,SAVN-CE允许智能体在3D空间中自由移动,并感知时空连贯的音频-视觉流。为了应对目标可能间歇性静音或完全停止发声导致智能体丢失目标信息的问题,本文提出了一种基于多模态Transformer的模型MAGNet,该模型联合编码空间和语义目标表示,并整合历史上下文和自运动线索,以实现记忆增强的目标推理。实验结果表明,MAGNet显著优于现有技术,成功率提高了12.1%。同时,MAGNet对短时声音和长距离导航场景具有鲁棒性。
🔬 方法详解
问题定义:论文旨在解决连续音频-视觉导航(SAVN-CE)环境中,由于目标声音间歇性消失或停止发声,导致智能体丢失目标信息的问题。现有方法通常依赖于离散环境和预计算的房间脉冲响应,无法处理连续空间中时空连贯的音频-视觉流,并且缺乏对历史信息的有效利用,容易受到噪声干扰。
核心思路:论文的核心思路是利用多模态Transformer网络MAGNet,通过联合编码空间和语义目标表示,并整合历史上下文和自运动线索,实现记忆增强的目标推理。这种方法允许智能体在目标声音消失时,依然能够根据历史信息和自身运动状态推断目标位置,从而提高导航的成功率。
技术框架:MAGNet的整体框架包含以下几个主要模块:1) 音频和视觉特征提取模块,用于从原始音频和视觉输入中提取特征;2) 空间和语义目标表示编码模块,用于将目标信息编码成空间和语义向量;3) 历史上下文和自运动线索整合模块,利用Transformer网络将历史信息和自运动信息与目标表示进行融合;4) 动作预测模块,根据融合后的信息预测智能体的下一步动作。
关键创新:MAGNet的关键创新在于其多模态Transformer架构,能够有效地融合音频、视觉、空间、语义和历史信息。与传统的基于RNN的方法相比,Transformer具有更强的并行计算能力和更长的依赖关系建模能力,能够更好地处理时序信息。此外,MAGNet还引入了自运动线索,帮助智能体更好地理解自身运动状态,从而提高导航的准确性。
关键设计:MAGNet的关键设计包括:1) 使用预训练的音频和视觉模型提取特征;2) 使用Transformer编码器对空间和语义目标表示进行编码;3) 使用Transformer解码器将历史上下文和自运动线索与目标表示进行融合;4) 使用交叉熵损失函数训练动作预测模块。具体参数设置和网络结构细节可在论文原文和代码中找到。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MAGNet在SAVN-CE环境中显著优于现有技术,成功率提高了12.1%。此外,MAGNet对短时声音和长距离导航场景具有鲁棒性,表明其具有较强的泛化能力。与基线方法相比,MAGNet在各种指标上都取得了显著的提升,证明了其有效性。
🎯 应用场景
该研究成果可应用于机器人导航、智能家居、辅助驾驶等领域。例如,在智能家居中,机器人可以通过声音和视觉信息找到用户指定的目标,即使目标发出声音的时间很短或者被遮挡。在辅助驾驶中,车辆可以通过声音和视觉信息识别紧急车辆,并采取相应的避让措施。未来,该技术还可以扩展到更复杂的环境和任务中,例如在嘈杂的城市环境中进行导航。
📄 摘要(原文)
Audio-visual navigation enables embodied agents to navigate toward sound-emitting targets by leveraging both auditory and visual cues. However, most existing approaches rely on precomputed room impulse responses (RIRs) for binaural audio rendering, restricting agents to discrete grid positions and leading to spatially discontinuous observations. To establish a more realistic setting, we introduce Semantic Audio-Visual Navigation in Continuous Environments (SAVN-CE), where agents can move freely in 3D spaces and perceive temporally and spatially coherent audio-visual streams. In this setting, targets may intermittently become silent or stop emitting sound entirely, causing agents to lose goal information. To tackle this challenge, we propose MAGNet, a multimodal transformer-based model that jointly encodes spatial and semantic goal representations and integrates historical context with self-motion cues to enable memory-augmented goal reasoning. Comprehensive experiments demonstrate that MAGNet significantly outperforms state-of-the-art methods, achieving up to a 12.1\% absolute improvement in success rate. These results also highlight its robustness to short-duration sounds and long-distance navigation scenarios. The code is available at https://github.com/yichenzeng24/SAVN-CE.