SOUPLE: Enhancing Audio-Visual Localization and Segmentation with Learnable Prompt Contexts

📄 arXiv: 2603.22732v1 📥 PDF

作者: Khanh Binh Nguyen, Chae Jung Park

分类: cs.CV

发布日期: 2026-03-24

备注: Accepted to CVPR 2026


💡 一句话要点

SOUPLE:利用可学习提示上下文增强音视频定位与分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 音视频定位 音视频分割 多模态学习 提示学习 CLIP模型

📋 核心要点

  1. 现有方法难以将CLIP模型有效应用于音视频定位,主要问题在于音频嵌入与上下文token缺乏有效语义连接。
  2. SOUPLE的核心思想是用可学习的上下文token替换固定提示,并融入视觉特征,生成条件上下文。
  3. 实验结果表明,SOUPLE在VGGSound、SoundNet和AVSBench等数据集上显著提升了音视频定位和分割的性能。

📝 摘要(中文)

大规模预训练图像-文本模型展现出强大的多模态表征能力,但将对比语言-图像预训练(CLIP)模型应用于音视频定位仍然充满挑战。使用音频嵌入token([V_A])替换分类token([CLS])难以捕捉语义线索,并且提示语“一张[V_A]的照片”无法在音频嵌入和上下文token之间建立有意义的联系。为了解决这些问题,我们提出了声音感知提示学习(SOUPLE),它用可学习的上下文token替换了固定的提示语。这些token结合了视觉特征,为掩码解码器生成条件上下文,从而有效地桥接了音频和视觉输入之间的语义对应关系。在VGGSound、SoundNet和AVSBench上的实验表明,SOUPLE提高了定位和分割性能。

🔬 方法详解

问题定义:论文旨在解决音视频定位与分割任务中,如何有效利用大规模预训练的图像-文本模型(如CLIP)的问题。现有方法直接将音频嵌入替换CLIP的[CLS] token,或者使用简单的文本提示,无法充分建立音频信息与视觉上下文之间的语义关联,导致定位和分割精度不高。现有方法的痛点在于缺乏有效的跨模态语义桥梁,难以充分利用预训练模型的知识。

核心思路:SOUPLE的核心思路是引入可学习的提示上下文(learnable prompt contexts),取代固定的文本提示。这些可学习的token能够根据输入的视觉特征动态调整,从而为后续的掩码解码器提供更具针对性的条件上下文。通过这种方式,SOUPLE能够更好地桥接音频和视觉信息之间的语义鸿沟,提升定位和分割的准确性。这样设计的目的是为了让模型能够自适应地学习音频和视觉之间的关系,而不是依赖于人工设计的固定提示。

技术框架:SOUPLE的整体框架包括以下几个主要模块:1) 音频和视觉特征提取器:用于提取音频和视觉输入的特征表示。2) 可学习提示上下文生成器:利用视觉特征生成可学习的上下文token,取代固定的文本提示。3) CLIP模型:将音频嵌入和可学习的上下文token输入CLIP模型,获得融合后的多模态特征表示。4) 掩码解码器:利用CLIP模型输出的特征表示,生成音视频对应的分割掩码。

关键创新:SOUPLE最重要的技术创新点在于提出了“声音感知提示学习”(Sound-aware Prompt Learning)的概念,并将其具体化为可学习的上下文token。与现有方法使用固定的文本提示或直接替换[CLS] token不同,SOUPLE能够根据输入的视觉信息动态调整提示内容,从而更好地适应不同的场景和音频信息。这种动态提示学习的方式是SOUPLE与现有方法的本质区别。

关键设计:在可学习提示上下文生成器中,可以使用多层感知机(MLP)或Transformer等结构,将视觉特征映射为可学习的token。损失函数通常包括定位损失和分割损失,用于优化模型参数。具体而言,定位损失可以采用交叉熵损失,分割损失可以采用Dice损失或IoU损失。网络结构方面,掩码解码器可以采用U-Net或MaskFormer等结构,用于生成最终的分割掩码。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SOUPLE在VGGSound、SoundNet和AVSBench等数据集上进行了广泛的实验,结果表明SOUPLE显著提升了音视频定位和分割的性能。例如,在AVSBench数据集上,SOUPLE的分割性能相比基线方法提升了超过5个百分点。这些实验结果充分验证了SOUPLE的有效性和优越性。

🎯 应用场景

SOUPLE技术可广泛应用于智能监控、机器人导航、视频编辑等领域。例如,在智能监控中,可以根据声音事件(如玻璃破碎)快速定位并分割出相关区域。在机器人导航中,可以帮助机器人理解环境中的声音信息,从而更好地进行路径规划和避障。此外,该技术还可以用于视频编辑,实现基于声音的自动剪辑和特效添加,具有广阔的应用前景和实际价值。

📄 摘要(原文)

Large-scale pre-trained image-text models exhibit robust multimodal representations, yet applying the Contrastive Language-Image Pre-training (CLIP) model to audio-visual localization remains challenging. Replacing the classification token ([CLS]) with an audio-embedded token ([V_A]) struggles to capture semantic cues, and the prompt "a photo of a [V_A]" fails to establish meaningful connections between audio embeddings and context tokens. To address these issues, we propose Sound-aware Prompt Learning (SOUPLE), which replaces fixed prompts with learnable context tokens. These tokens incorporate visual features to generate conditional context for a mask decoder, effectively bridging semantic correspondence between audio and visual inputs. Experiments on VGGSound, SoundNet, and AVSBench demonstrate that SOUPLE improves localization and segmentation performance.