Generate, Analyze, and Refine: Training-Free Sound Source Localization via MLLM Meta-Reasoning

📄 arXiv: 2604.06824v1 📥 PDF

作者: Subin Park, Jung Uk Kim

分类: cs.CV

发布日期: 2026-04-08

备注: Accepted to CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于MLLM元推理的无训练声源定位框架GAR,解决复杂场景下的定位难题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 声源定位 多模态学习 大型语言模型 元推理 无监督学习

📋 核心要点

  1. 现有声源定位方法依赖对比学习,缺乏显式推理和验证,在复杂场景下效果受限。
  2. 受人类元认知启发,提出GAR框架,利用MLLM的推理能力,无需训练即可实现声源定位。
  3. GAR框架包含生成、分析和优化三个阶段,实验表明其在单源和多源定位任务中表现出色。

📝 摘要(中文)

本文提出了一种无训练的声源定位(SSL)框架,该框架利用多模态大型语言模型(MLLM)的内在推理能力,旨在通过音频和视觉模态之间的关联来识别发声物体的位置。现有SSL方法主要依赖于基于对比学习的特征匹配,但缺乏显式的推理和验证,这限制了它们在复杂声学场景中的有效性。受人类元认知过程的启发,我们提出的生成-分析-优化(GAR)流程包含三个阶段:生成阶段产生初始边界框和音频分类;分析阶段通过开放集角色标记和锚点投票来量化音频-视觉一致性;优化阶段应用自适应门控来防止不必要的调整。在单源和多源基准测试上的大量实验表明,该方法具有竞争力的性能。源代码可在https://github.com/VisualAIKHU/GAR-SSL 获取。

🔬 方法详解

问题定义:声源定位旨在确定图像中发声物体的位置。现有方法主要依赖于对比学习,通过匹配音频和视觉特征来实现定位。然而,这些方法缺乏显式的推理和验证步骤,难以处理复杂声学场景,例如存在多个声源或背景噪声干扰的情况。现有方法需要大量的训练数据,泛化能力有限。

核心思路:本文的核心思路是利用多模态大型语言模型(MLLM)的内在推理能力,模拟人类的元认知过程,从而实现无需训练的声源定位。通过将声源定位任务分解为生成、分析和优化三个阶段,并利用MLLM在不同模态间进行推理,可以有效地提高定位的准确性和鲁棒性。

技术框架:GAR框架包含三个主要阶段:1) 生成(Generation):利用MLLM生成初始的声源边界框和音频分类结果。2) 分析(Analysis):通过开放集角色标记和锚点投票机制,量化音频和视觉信息之间的一致性。开放集角色标记用于识别图像中与音频相关的对象,锚点投票则用于评估不同对象位置的合理性。3) 优化(Refinement):应用自适应门控机制,根据音频-视觉一致性评分,决定是否需要对初始边界框进行调整,避免不必要的修改。

关键创新:该方法最关键的创新在于利用MLLM的元推理能力,实现了无需训练的声源定位。与传统的基于对比学习的方法相比,GAR框架不需要大量的训练数据,并且能够更好地处理复杂声学场景。此外,GAR框架通过显式的分析和优化阶段,提高了定位的准确性和鲁棒性。

关键设计:在生成阶段,使用了预训练的MLLM模型,例如LLaVA或MiniGPT-4,用于生成初始边界框和音频分类结果。在分析阶段,开放集角色标记使用了预训练的对象检测模型和语义分割模型。锚点投票机制通过计算不同对象位置的音频-视觉一致性得分来评估其合理性。自适应门控机制使用sigmoid函数来控制边界框的调整幅度,其参数根据音频-视觉一致性得分进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GAR框架在单源和多源声源定位任务上都取得了有竞争力的性能。在无需任何训练的情况下,GAR框架能够达到与一些有监督方法相近的性能。实验结果表明,GAR框架在处理复杂声学场景时具有较强的鲁棒性,并且能够有效地利用MLLM的推理能力。

🎯 应用场景

该研究成果可应用于智能监控、机器人导航、智能家居等领域。例如,在智能监控中,可以利用该方法定位异常声音的来源,及时发现安全隐患。在机器人导航中,可以帮助机器人根据声音信息确定目标物体的位置,提高导航的准确性。在智能家居中,可以根据用户的语音指令,定位发出指令的用户,提供个性化的服务。

📄 摘要(原文)

Sound source localization task aims to identify the locations of sound-emitting objects by leveraging correlations between audio and visual modalities. Most existing SSL methods rely on contrastive learning-based feature matching, but lack explicit reasoning and verification, limiting their effectiveness in complex acoustic scenes. Inspired by human meta-cognitive processes, we propose a training-free SSL framework that exploits the intrinsic reasoning capabilities of Multimodal Large Language Models (MLLMs). Our Generation-Analysis-Refinement (GAR) pipeline consists of three stages: Generation produces initial bounding boxes and audio classifications; Analysis quantifies Audio-Visual Consistency via open-set role tagging and anchor voting; and Refinement applies adaptive gating to prevent unnecessary adjustments. Extensive experiments on single-source and multi-source benchmarks demonstrate competitive performance. The source code is available at https://github.com/VisualAIKHU/GAR-SSL.