From Waveforms to Pixels: A Survey on Audio-Visual Segmentation

作者: Jia Li, Yapeng Tian

分类: cs.CV

发布日期: 2025-07-29

💡 一句话要点

音频-视觉分割综述：全面回顾问题、方法与未来趋势

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 音频-视觉分割 多模态学习 视频理解 深度学习 综述 弱监督学习 自监督学习

📋 核心要点

现有AVS方法在时间建模、模态平衡和复杂环境鲁棒性方面存在不足，限制了其应用。
本文全面回顾AVS领域，分析各种方法，并探讨不同架构、融合策略和训练范式的影响。
通过比较标准基准上的AVS方法，总结了当前挑战，并提出了未来发展方向，例如利用基础模型。

📝 摘要（中文）

音频-视觉分割（AVS）旨在通过利用视觉和音频模态来识别和分割视频中产生声音的物体。它已成为多模态感知中的一个重要研究领域，能够实现细粒度的对象级理解。本综述全面概述了AVS领域，涵盖其问题定义、基准数据集、评估指标以及方法的发展历程。我们分析了各种方法，包括用于单模态和多模态编码的架构、音频-视觉融合的关键策略以及各种解码器设计。此外，我们还研究了主要的训练范式，从完全监督学习到弱监督和无训练方法。值得注意的是，我们对标准基准上的AVS方法进行了广泛的比较，突出了不同架构选择、融合策略和训练范式对性能的影响。最后，我们概述了当前的挑战，例如有限的时间建模、对视觉的模态偏见、复杂环境中缺乏鲁棒性以及高计算需求，并提出了有希望的未来方向，包括改进时间推理和多模态融合，利用基础模型来实现更好的泛化和少样本学习，通过自监督和弱监督学习减少对标记数据的依赖，以及结合更高层次的推理来实现更智能的AVS系统。

🔬 方法详解

问题定义：音频-视觉分割（AVS）旨在识别和分割视频中发出声音的物体。现有方法在处理复杂场景、长时间序列以及模态信息融合方面存在挑战，例如，如何有效利用音频信息来辅助视觉分割，如何提高模型在噪声环境下的鲁棒性，以及如何减少对大量标注数据的依赖。

核心思路：本文的核心在于对现有AVS方法进行系统性的梳理和分析，从问题定义、数据集、评估指标、方法论和训练范式等多个维度进行深入探讨。通过对比不同方法的优缺点，总结出当前AVS领域面临的挑战，并为未来的研究方向提供指导。核心思路是提供一个全面的视角，帮助研究人员更好地理解和解决AVS问题。

技术框架：本文的框架主要包括以下几个部分：首先，介绍AVS的问题定义和应用场景；其次，回顾常用的基准数据集和评估指标；然后，详细分析各种AVS方法，包括单模态和多模态编码器、音频-视觉融合策略以及解码器设计；接着，讨论不同的训练范式，如完全监督、弱监督和无监督学习；最后，总结当前面临的挑战，并提出未来的研究方向。

关键创新：本文的主要创新在于提供了一个全面且深入的AVS综述，涵盖了该领域的各个方面。与以往的综述相比，本文更加关注不同方法之间的比较和分析，并对未来的研究方向提出了更具体的建议。此外，本文还特别强调了利用基础模型、自监督学习和弱监督学习等新兴技术来解决AVS问题的重要性。

关键设计：本文的关键设计在于其结构化的组织方式和详细的分析。通过将AVS方法分解为不同的模块（如编码器、融合策略和解码器），并对每个模块进行深入的讨论，本文能够帮助读者更好地理解不同方法的优缺点。此外，本文还通过对比不同方法在标准基准上的性能，为读者提供了一个客观的评估标准。

🖼️ 关键图片

📊 实验亮点

该综述对比了多种AVS方法在标准数据集上的性能，例如在某数据集上，采用特定融合策略的模型相比于基线模型，分割精度提升了X%。同时，分析了不同训练范式对模型性能的影响，发现弱监督学习方法在一定程度上可以缓解对大量标注数据的依赖。

🎯 应用场景

音频-视觉分割技术在视频监控、智能安防、人机交互、自动驾驶等领域具有广泛的应用前景。例如，在视频监控中，AVS可以用于自动识别和定位异常声音事件，如枪声或尖叫声；在人机交互中，AVS可以用于理解用户的语音指令并执行相应的操作；在自动驾驶中，AVS可以用于检测周围环境中的声音信号，如警笛声或喇叭声，从而提高驾驶安全性。

📄 摘要（原文）

Audio-Visual Segmentation (AVS) aims to identify and segment sound-producing objects in videos by leveraging both visual and audio modalities. It has emerged as a significant research area in multimodal perception, enabling fine-grained object-level understanding. In this survey, we present a comprehensive overview of the AVS field, covering its problem formulation, benchmark datasets, evaluation metrics, and the progression of methodologies. We analyze a wide range of approaches, including architectures for unimodal and multimodal encoding, key strategies for audio-visual fusion, and various decoder designs. Furthermore, we examine major training paradigms, from fully supervised learning to weakly supervised and training-free methods. Notably, we provide an extensive comparison of AVS methods across standard benchmarks, highlighting the impact of different architectural choices, fusion strategies, and training paradigms on performance. Finally, we outline the current challenges, such as limited temporal modeling, modality bias toward vision, lack of robustness in complex environments, and high computational demands, and propose promising future directions, including improving temporal reasoning and multimodal fusion, leveraging foundation models for better generalization and few-shot learning, reducing reliance on labeled data through selfand weakly supervised learning, and incorporating higher-level reasoning for more intelligent AVS systems.

From Waveforms to Pixels: A Survey on Audio-Visual Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理