Towards Open-Vocabulary Audio-Visual Event Localization

作者: Jinxing Zhou, Dan Guo, Ruohao Guo, Yuxin Mao, Jingjing Hu, Yiran Zhong, Xiaojun Chang, Meng Wang

分类: cs.CV, cs.MM

发布日期: 2024-11-18 (更新: 2025-03-11)

备注: accepted by CVPR 2025; Project page: https://github.com/jasongief/OV-AVEL

💡 一句话要点

提出OV-AVEL任务与OV-AVEBench数据集，实现开放词汇的音视频事件定位。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 开放词汇学习 音视频事件定位 多模态学习 预训练模型 数据集构建

📋 核心要点

现有音视频事件定位方法受限于闭集设定，无法识别训练集中未出现的事件类别。
提出开放词汇音视频事件定位（OV-AVEL）任务，旨在识别和定位训练集中未见过的事件。
构建了包含24,800个视频的OV-AVEBench数据集，并提出了免训练和微调两种基线方法。

📝 摘要（中文）

音视频事件定位(AVEL)旨在对视频中可听且可见的事件进行时间定位和分类。现有研究主要集中在闭集设置下，限制了模型处理训练中未见过的事件类别的能力。本文提出了开放词汇音视频事件定位(OV-AVEL)问题，要求在推理时定位音视频事件，并预测可见和未见数据的明确类别。为了解决这个新任务，我们构建了OV-AVEBench数据集，包含67个真实音视频场景的24,800个视频（seen:unseen = 46:21），每个视频都有人工标注的片段级标签。我们还为该任务建立了三个评估指标。此外，我们研究了两种基线方法，一种是免训练的，另一种是使用进一步微调的范式。具体来说，我们利用预训练的ImageBind模型中的统一多模态空间来提取音频、视觉和文本（事件类别）特征。然后，免训练基线通过比较音频-文本和视觉-文本特征相似性的一致性来确定预测结果。微调基线结合了轻量级的时间层，以编码音频和视觉模态中的时间关系，并使用OV-AVEBench训练数据进行模型微调。我们在提出的OV-AVEBench数据集上评估了这些基线，并讨论了该新领域未来工作的潜在方向。

🔬 方法详解

问题定义：现有的音视频事件定位（AVEL）方法主要集中在闭集设置下，这意味着模型只能识别在训练期间见过的事件类别。然而，现实世界中的音视频事件种类繁多，模型需要具备识别和定位训练集中未出现过的事件的能力。因此，论文旨在解决开放词汇音视频事件定位（OV-AVEL）问题，即在推理时能够识别和定位训练集中未见过的事件，并给出明确的类别预测。

核心思路：论文的核心思路是利用预训练的多模态模型（ImageBind）提取音频、视觉和文本特征，构建一个统一的多模态空间。通过比较音频-文本和视觉-文本特征之间的相似性，来判断视频片段中是否存在特定类别的事件。对于微调基线，则进一步利用轻量级的时间层来编码音频和视觉模态中的时间关系，从而提高定位的准确性。

技术框架：整体框架包含以下几个主要步骤：1) 使用ImageBind提取音频、视觉和文本特征；2) 对于免训练基线，计算音频-文本和视觉-文本特征的相似度，并根据相似度的一致性进行事件定位和分类；3) 对于微调基线，使用轻量级的时间层编码音频和视觉模态的时间关系，并使用OV-AVEBench数据集进行微调，最后进行事件定位和分类。

关键创新：论文的关键创新在于提出了OV-AVEL任务和OV-AVEBench数据集，为开放词汇的音视频事件定位研究提供了新的方向和资源。此外，利用预训练的多模态模型ImageBind，并结合时间建模，为解决OV-AVEL问题提供了一种有效的解决方案。与现有方法的本质区别在于，现有方法只能处理闭集问题，而本文提出的方法能够处理开放词汇问题。

关键设计：在免训练基线中，关键在于相似度度量的选择和一致性判断的阈值设定。在微调基线中，关键在于时间层的结构设计和训练策略。论文中使用了轻量级的时间卷积网络（TCN）来编码时间关系。损失函数方面，可能使用了交叉熵损失或其变体来优化模型。

🖼️ 关键图片

📊 实验亮点

论文提出了OV-AVEBench数据集，包含24,800个视频，覆盖67个真实场景。实验结果表明，基于ImageBind的免训练基线和微调基线在OV-AVEBench数据集上取得了初步的成果，验证了该方法的有效性。虽然性能还有提升空间，但为后续研究奠定了基础。

🎯 应用场景

该研究成果可应用于智能监控、视频内容分析、智能家居等领域。例如，在智能监控中，可以自动识别异常声音和画面，及时发出警报；在视频内容分析中，可以自动提取视频中的关键事件，提高视频检索效率；在智能家居中，可以根据声音和画面判断用户的行为，提供个性化服务。未来，该技术有望在更多领域得到应用，例如自动驾驶、医疗诊断等。

📄 摘要（原文）

The Audio-Visual Event Localization (AVEL) task aims to temporally locate and classify video events that are both audible and visible. Most research in this field assumes a closed-set setting, which restricts these models' ability to handle test data containing event categories absent (unseen) during training. Recently, a few studies have explored AVEL in an open-set setting, enabling the recognition of unseen events as ``unknown'', but without providing category-specific semantics. In this paper, we advance the field by introducing the Open-Vocabulary Audio-Visual Event Localization (OV-AVEL) problem, which requires localizing audio-visual events and predicting explicit categories for both seen and unseen data at inference. To address this new task, we propose the OV-AVEBench dataset, comprising 24,800 videos across 67 real-life audio-visual scenes (seen:unseen = 46:21), each with manual segment-level annotation. We also establish three evaluation metrics for this task. Moreover, we investigate two baseline approaches, one training-free and one using a further fine-tuning paradigm. Specifically, we utilize the unified multimodal space from the pretrained ImageBind model to extract audio, visual, and textual (event classes) features. The training-free baseline then determines predictions by comparing the consistency of audio-text and visual-text feature similarities. The fine-tuning baseline incorporates lightweight temporal layers to encode temporal relations within the audio and visual modalities, using OV-AVEBench training data for model fine-tuning. We evaluate these baselines on the proposed OV-AVEBench dataset and discuss potential directions for future work in this new field.

Towards Open-Vocabulary Audio-Visual Event Localization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理