Open-Vocabulary Audio-Visual Semantic Segmentation

📄 arXiv: 2407.21721v1 📥 PDF

作者: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying

分类: cs.MM, cs.AI

发布日期: 2024-07-31

备注: Accepted by ACM MM 2024 (Oral)

🔗 代码/项目: GITHUB


💡 一句话要点

提出OV-AVSS框架,解决开放词汇音视频语义分割任务,提升零样本泛化能力。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 音视频语义分割 开放词汇学习 零样本学习 跨模态融合 声源定位

📋 核心要点

  1. 现有音视频语义分割方法受限于封闭集,无法识别训练集中未出现的新类别,泛化能力不足。
  2. 提出OV-AVSS框架,包含声源定位模块和开放词汇分类模块,利用预训练视觉-语言模型实现开放词汇识别。
  3. 在AVSBench-OV数据集上,OV-AVSS在基础类别和新类别上均显著优于现有零样本和开放词汇方法。

📝 摘要(中文)

音视频语义分割(AVSS)旨在利用声音线索分割和分类视频中的发声物体。然而,大多数方法基于封闭集假设,仅识别训练数据中预定义的类别,缺乏检测实际应用中新类别的泛化能力。本文引入了一个新任务:开放词汇音视频语义分割,将AVSS任务扩展到超出标注标签空间的开放世界场景。这是一个更具挑战性的任务,需要识别所有类别,即使是那些在训练期间从未见过或听过的类别。此外,我们提出了第一个开放词汇AVSS框架,OV-AVSS,主要包括两个部分:1)一个通用的声源定位模块,用于执行音视频融合并定位所有潜在的发声物体;2)一个开放词汇分类模块,借助大规模预训练视觉-语言模型的先验知识来预测类别。为了正确评估开放词汇AVSS,我们基于AVSBench-semantic基准分割了零样本训练和测试子集,即AVSBench-OV。大量实验证明了我们的模型在所有类别上的强大分割和零样本泛化能力。在AVSBench-OV数据集上,OV-AVSS在基础类别上实现了55.43%的mIoU,在新类别上实现了29.14%的mIoU,超过了最先进的零样本方法41.88%/20.61%,超过了开放词汇方法10.2%/11.6%。代码可在https://github.com/ruohaoguo/ovavss获取。

🔬 方法详解

问题定义:音视频语义分割(AVSS)旨在分割和识别视频中发出声音的物体。现有方法通常基于封闭集假设,即模型只能识别训练集中预先定义的类别。然而,在实际应用中,视频中可能包含训练集中未出现的新类别,导致现有方法无法有效处理,泛化能力受限。因此,需要一种能够识别开放词汇表中任意类别的音视频语义分割方法。

核心思路:本文的核心思路是利用大规模预训练的视觉-语言模型(如CLIP)的先验知识,将音视频信息与文本描述对齐,从而实现对开放词汇表中类别的识别。通过音视频融合定位潜在的发声物体,然后利用视觉-语言模型将这些物体的视觉特征与文本描述进行匹配,预测其类别。这种方法避免了对特定类别的训练依赖,从而实现了零样本泛化能力。

技术框架:OV-AVSS框架主要包含两个模块:1) 通用声源定位模块:该模块负责执行音视频融合,定位视频中所有潜在的发声物体。具体实现可能包括使用注意力机制或跨模态特征融合方法,将音频信息引导到视觉特征上,从而突出显示与声音相关的区域。2) 开放词汇分类模块:该模块利用预训练的视觉-语言模型(如CLIP)进行类别预测。首先,提取定位到的物体的视觉特征,然后将这些特征与文本描述的类别嵌入进行匹配,选择最匹配的类别作为预测结果。

关键创新:本文最重要的技术创新在于将开放词汇学习的思想引入到音视频语义分割任务中,并提出了相应的OV-AVSS框架。与现有方法的本质区别在于,OV-AVSS不再依赖于预定义的类别集合,而是能够利用预训练的视觉-语言模型的先验知识,识别开放词汇表中的任意类别,从而显著提升了模型的泛化能力。

关键设计:在声源定位模块中,可能采用了跨模态注意力机制,以音频信息作为query,引导视觉特征的提取。在开放词汇分类模块中,使用了预训练的CLIP模型,并可能对CLIP的特征提取器进行了微调,以适应音视频语义分割任务。损失函数可能包括分割损失(如交叉熵损失)和对比学习损失,以促进音视频特征与文本描述的对齐。

🖼️ 关键图片

fig_0

📊 实验亮点

OV-AVSS在AVSBench-OV数据集上取得了显著的性能提升。在基础类别上,OV-AVSS达到了55.43%的mIoU,在新类别上达到了29.14%的mIoU。相比于最先进的零样本方法,OV-AVSS在基础类别和新类别上分别提升了41.88%和20.61%。相比于开放词汇方法,OV-AVSS在基础类别和新类别上分别提升了10.2%和11.6%。这些结果表明,OV-AVSS具有强大的分割和零样本泛化能力。

🎯 应用场景

该研究成果可应用于智能监控、机器人导航、视频内容理解等领域。例如,在智能监控中,可以自动识别异常声音事件并定位相关物体;在机器人导航中,可以帮助机器人理解周围环境,识别声音来源并进行相应的交互;在视频内容理解中,可以自动标注视频中的发声物体,提高视频检索和分析的效率。未来,该技术有望进一步扩展到更复杂的场景,例如多说话人场景和嘈杂环境。

📄 摘要(原文)

Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at https://github.com/ruohaoguo/ovavss.