Towards Open-Vocabulary Audio-Visual Event Localization
作者: Jinxing Zhou, Dan Guo, Ruohao Guo, Yuxin Mao, Jingjing Hu, Yiran Zhong, Xiaojun Chang, Meng Wang
分类: cs.CV, cs.MM
发布日期: 2024-11-18 (更新: 2025-03-11)
备注: accepted by CVPR 2025; Project page: https://github.com/jasongief/OV-AVEL
💡 一句话要点
提出OV-AVEL任务与OV-AVEBench数据集,实现开放词汇的音视频事件定位。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 开放词汇学习 音视频事件定位 多模态学习 预训练模型 数据集构建
📋 核心要点
- 现有音视频事件定位方法受限于闭集设定,无法识别训练集中未出现的事件类别。
- 提出开放词汇音视频事件定位(OV-AVEL)任务,旨在识别和定位训练集中未见过的事件。
- 构建了包含24,800个视频的OV-AVEBench数据集,并提出了免训练和微调两种基线方法。
📝 摘要(中文)
音视频事件定位(AVEL)旨在对视频中可听且可见的事件进行时间定位和分类。现有研究主要集中在闭集设置下,限制了模型处理训练中未见过的事件类别的能力。本文提出了开放词汇音视频事件定位(OV-AVEL)问题,要求在推理时定位音视频事件,并预测可见和未见数据的明确类别。为了解决这个新任务,我们构建了OV-AVEBench数据集,包含67个真实音视频场景的24,800个视频(seen:unseen = 46:21),每个视频都有人工标注的片段级标签。我们还为该任务建立了三个评估指标。此外,我们研究了两种基线方法,一种是免训练的,另一种是使用进一步微调的范式。具体来说,我们利用预训练的ImageBind模型中的统一多模态空间来提取音频、视觉和文本(事件类别)特征。然后,免训练基线通过比较音频-文本和视觉-文本特征相似性的一致性来确定预测结果。微调基线结合了轻量级的时间层,以编码音频和视觉模态中的时间关系,并使用OV-AVEBench训练数据进行模型微调。我们在提出的OV-AVEBench数据集上评估了这些基线,并讨论了该新领域未来工作的潜在方向。
🔬 方法详解
问题定义:现有的音视频事件定位(AVEL)方法主要集中在闭集设置下,这意味着模型只能识别在训练期间见过的事件类别。然而,现实世界中的音视频事件种类繁多,模型需要具备识别和定位训练集中未出现过的事件的能力。因此,论文旨在解决开放词汇音视频事件定位(OV-AVEL)问题,即在推理时能够识别和定位训练集中未见过的事件,并给出明确的类别预测。
核心思路:论文的核心思路是利用预训练的多模态模型(ImageBind)提取音频、视觉和文本特征,构建一个统一的多模态空间。通过比较音频-文本和视觉-文本特征之间的相似性,来判断视频片段中是否存在特定类别的事件。对于微调基线,则进一步利用轻量级的时间层来编码音频和视觉模态中的时间关系,从而提高定位的准确性。
技术框架:整体框架包含以下几个主要步骤:1) 使用ImageBind提取音频、视觉和文本特征;2) 对于免训练基线,计算音频-文本和视觉-文本特征的相似度,并根据相似度的一致性进行事件定位和分类;3) 对于微调基线,使用轻量级的时间层编码音频和视觉模态的时间关系,并使用OV-AVEBench数据集进行微调,最后进行事件定位和分类。
关键创新:论文的关键创新在于提出了OV-AVEL任务和OV-AVEBench数据集,为开放词汇的音视频事件定位研究提供了新的方向和资源。此外,利用预训练的多模态模型ImageBind,并结合时间建模,为解决OV-AVEL问题提供了一种有效的解决方案。与现有方法的本质区别在于,现有方法只能处理闭集问题,而本文提出的方法能够处理开放词汇问题。
关键设计:在免训练基线中,关键在于相似度度量的选择和一致性判断的阈值设定。在微调基线中,关键在于时间层的结构设计和训练策略。论文中使用了轻量级的时间卷积网络(TCN)来编码时间关系。损失函数方面,可能使用了交叉熵损失或其变体来优化模型。
🖼️ 关键图片
📊 实验亮点
论文提出了OV-AVEBench数据集,包含24,800个视频,覆盖67个真实场景。实验结果表明,基于ImageBind的免训练基线和微调基线在OV-AVEBench数据集上取得了初步的成果,验证了该方法的有效性。虽然性能还有提升空间,但为后续研究奠定了基础。
🎯 应用场景
该研究成果可应用于智能监控、视频内容分析、智能家居等领域。例如,在智能监控中,可以自动识别异常声音和画面,及时发出警报;在视频内容分析中,可以自动提取视频中的关键事件,提高视频检索效率;在智能家居中,可以根据声音和画面判断用户的行为,提供个性化服务。未来,该技术有望在更多领域得到应用,例如自动驾驶、医疗诊断等。
📄 摘要(原文)
The Audio-Visual Event Localization (AVEL) task aims to temporally locate and classify video events that are both audible and visible. Most research in this field assumes a closed-set setting, which restricts these models' ability to handle test data containing event categories absent (unseen) during training. Recently, a few studies have explored AVEL in an open-set setting, enabling the recognition of unseen events as ``unknown'', but without providing category-specific semantics. In this paper, we advance the field by introducing the Open-Vocabulary Audio-Visual Event Localization (OV-AVEL) problem, which requires localizing audio-visual events and predicting explicit categories for both seen and unseen data at inference. To address this new task, we propose the OV-AVEBench dataset, comprising 24,800 videos across 67 real-life audio-visual scenes (seen:unseen = 46:21), each with manual segment-level annotation. We also establish three evaluation metrics for this task. Moreover, we investigate two baseline approaches, one training-free and one using a further fine-tuning paradigm. Specifically, we utilize the unified multimodal space from the pretrained ImageBind model to extract audio, visual, and textual (event classes) features. The training-free baseline then determines predictions by comparing the consistency of audio-text and visual-text feature similarities. The fine-tuning baseline incorporates lightweight temporal layers to encode temporal relations within the audio and visual modalities, using OV-AVEBench training data for model fine-tuning. We evaluate these baselines on the proposed OV-AVEBench dataset and discuss potential directions for future work in this new field.