Generate, Analyze, and Refine: Training-Free Sound Source Localization via MLLM Meta-Reasoning

作者: Subin Park, Jung Uk Kim

分类: cs.CV

发布日期: 2026-04-08

备注: Accepted to CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出基于MLLM元推理的无训练声源定位框架GAR，解决复杂场景下的定位难题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 声源定位 多模态学习 大型语言模型 元推理 无监督学习

📋 核心要点

现有声源定位方法依赖对比学习，缺乏显式推理和验证，在复杂场景下效果受限。
受人类元认知启发，提出GAR框架，利用MLLM的推理能力，无需训练即可实现声源定位。
GAR框架包含生成、分析和优化三个阶段，实验表明其在单源和多源定位任务中表现出色。

📝 摘要（中文）

本文提出了一种无训练的声源定位（SSL）框架，该框架利用多模态大型语言模型（MLLM）的内在推理能力，旨在通过音频和视觉模态之间的关联来识别发声物体的位置。现有SSL方法主要依赖于基于对比学习的特征匹配，但缺乏显式的推理和验证，这限制了它们在复杂声学场景中的有效性。受人类元认知过程的启发，我们提出的生成-分析-优化（GAR）流程包含三个阶段：生成阶段产生初始边界框和音频分类；分析阶段通过开放集角色标记和锚点投票来量化音频-视觉一致性；优化阶段应用自适应门控来防止不必要的调整。在单源和多源基准测试上的大量实验表明，该方法具有竞争力的性能。源代码可在https://github.com/VisualAIKHU/GAR-SSL 获取。

🔬 方法详解

问题定义：声源定位旨在确定图像中发声物体的位置。现有方法主要依赖于对比学习，通过匹配音频和视觉特征来实现定位。然而，这些方法缺乏显式的推理和验证步骤，难以处理复杂声学场景，例如存在多个声源或背景噪声干扰的情况。现有方法需要大量的训练数据，泛化能力有限。

核心思路：本文的核心思路是利用多模态大型语言模型（MLLM）的内在推理能力，模拟人类的元认知过程，从而实现无需训练的声源定位。通过将声源定位任务分解为生成、分析和优化三个阶段，并利用MLLM在不同模态间进行推理，可以有效地提高定位的准确性和鲁棒性。

技术框架：GAR框架包含三个主要阶段：1) 生成（Generation）：利用MLLM生成初始的声源边界框和音频分类结果。2) 分析（Analysis）：通过开放集角色标记和锚点投票机制，量化音频和视觉信息之间的一致性。开放集角色标记用于识别图像中与音频相关的对象，锚点投票则用于评估不同对象位置的合理性。3) 优化（Refinement）：应用自适应门控机制，根据音频-视觉一致性评分，决定是否需要对初始边界框进行调整，避免不必要的修改。

关键创新：该方法最关键的创新在于利用MLLM的元推理能力，实现了无需训练的声源定位。与传统的基于对比学习的方法相比，GAR框架不需要大量的训练数据，并且能够更好地处理复杂声学场景。此外，GAR框架通过显式的分析和优化阶段，提高了定位的准确性和鲁棒性。

关键设计：在生成阶段，使用了预训练的MLLM模型，例如LLaVA或MiniGPT-4，用于生成初始边界框和音频分类结果。在分析阶段，开放集角色标记使用了预训练的对象检测模型和语义分割模型。锚点投票机制通过计算不同对象位置的音频-视觉一致性得分来评估其合理性。自适应门控机制使用sigmoid函数来控制边界框的调整幅度，其参数根据音频-视觉一致性得分进行调整。

🖼️ 关键图片

📊 实验亮点

GAR框架在单源和多源声源定位任务上都取得了有竞争力的性能。在无需任何训练的情况下，GAR框架能够达到与一些有监督方法相近的性能。实验结果表明，GAR框架在处理复杂声学场景时具有较强的鲁棒性，并且能够有效地利用MLLM的推理能力。

🎯 应用场景

该研究成果可应用于智能监控、机器人导航、智能家居等领域。例如，在智能监控中，可以利用该方法定位异常声音的来源，及时发现安全隐患。在机器人导航中，可以帮助机器人根据声音信息确定目标物体的位置，提高导航的准确性。在智能家居中，可以根据用户的语音指令，定位发出指令的用户，提供个性化的服务。

📄 摘要（原文）

Sound source localization task aims to identify the locations of sound-emitting objects by leveraging correlations between audio and visual modalities. Most existing SSL methods rely on contrastive learning-based feature matching, but lack explicit reasoning and verification, limiting their effectiveness in complex acoustic scenes. Inspired by human meta-cognitive processes, we propose a training-free SSL framework that exploits the intrinsic reasoning capabilities of Multimodal Large Language Models (MLLMs). Our Generation-Analysis-Refinement (GAR) pipeline consists of three stages: Generation produces initial bounding boxes and audio classifications; Analysis quantifies Audio-Visual Consistency via open-set role tagging and anchor voting; and Refinement applies adaptive gating to prevent unnecessary adjustments. Extensive experiments on single-source and multi-source benchmarks demonstrate competitive performance. The source code is available at https://github.com/VisualAIKHU/GAR-SSL.

Generate, Analyze, and Refine: Training-Free Sound Source Localization via MLLM Meta-Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理