Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos

作者: Davide Berghi, Philip J. B. Jackson

分类: eess.AS, cs.LG, eess.IV, eess.SP

发布日期: 2025-07-07

💡 一句话要点

提出基于空间和语义嵌入融合的立体声音频事件定位与检测方法，用于常规视频。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 声音事件定位与检测 立体声音频 多模态融合 对比学习 预训练模型 语义嵌入 自相关特征

📋 核心要点

传统SELD方法依赖多通道输入，限制了其利用大规模预训练模型的能力，难以有效建模语义信息。
论文提出一种融合预训练对比语言对齐模型（CLAP和OWL-ViT）的SELD架构，增强语义信息的利用。
实验结果表明，该方法在音频和音视频任务上均显著优于基线，并通过模型集成和视觉后处理进一步提升性能。

📝 摘要（中文）

本报告介绍了我们提交给DCASE2025 Task 3挑战赛（常规视频内容中的立体声音频事件定位与检测，SELD）音频和音视频赛道的系统。SELD是一项复杂的任务，它将时间事件分类与空间定位相结合，需要在空间、时间和语义维度上进行推理。其中，语义维度的建模最具挑战性。传统的SELD架构依赖于多通道输入，这限制了它们利用大规模预训练的能力，因为数据受限。为了解决这个问题，我们通过整合预训练的、对比语言对齐的模型来增强标准的SELD架构，即音频使用CLAP，视觉输入使用OWL-ViT，从而引入语义信息。这些嵌入被整合到一个为多模态融合定制的改进的Conformer模块中，我们称之为跨模态Conformer。此外，我们还加入了基于自相关的声学特征，以提高距离估计。我们在精心策划的合成音频和音视频数据集上预训练我们的模型，并应用左右声道交换增强来进一步增加训练数据。我们的音频和音视频系统都显著优于开发集上的挑战赛基线，证明了我们策略的有效性。通过模型集成和基于人体关键点的视觉后处理步骤，性能得到进一步提高。未来的工作将研究每种模态的贡献，并探索架构变体以进一步提高结果。

🔬 方法详解

问题定义：论文旨在解决常规视频中立体声音频事件的定位与检测问题（SELD）。现有方法主要依赖多通道音频输入，难以有效利用大规模预训练模型，导致语义信息建模不足，限制了性能提升。

核心思路：核心思路是通过融合预训练的对比语言对齐模型（CLAP和OWL-ViT）提取的音频和视觉语义信息，增强SELD模型对语义的理解能力。同时，利用自相关声学特征提升距离估计的准确性。

技术框架：整体框架包含以下几个主要模块：1) 音频特征提取：使用传统声学特征和CLAP嵌入；2) 视觉特征提取：使用OWL-ViT嵌入；3) 跨模态融合：使用改进的Conformer模块（Cross-Modal Conformer）融合音频和视觉特征；4) SELD预测：预测音频事件的类别和空间位置。此外，还包括预训练阶段和后处理阶段。

关键创新：最重要的创新点在于将预训练的对比语言对齐模型引入SELD任务，从而有效利用了大规模的文本-音频/图像数据，提升了模型对语义信息的理解能力。Cross-Modal Conformer模块的设计也针对多模态融合进行了优化。

关键设计：关键设计包括：1) 使用CLAP和OWL-ViT提取音频和视觉语义嵌入；2) 设计Cross-Modal Conformer模块，用于融合多模态特征；3) 引入基于自相关的声学特征，提升距离估计；4) 使用合成数据进行预训练，并采用左右声道交换增强数据；5) 使用模型集成和基于人体关键点的视觉后处理进一步提升性能。

🖼️ 关键图片

📊 实验亮点

论文提出的方法在DCASE2025 Task 3挑战赛的开发集上，音频和音视频系统均显著优于基线系统，证明了该策略的有效性。通过模型集成和基于人体关键点的视觉后处理，性能得到进一步提升。具体性能数据未知，但摘要明确指出是“substantially outperform”。

🎯 应用场景

该研究成果可应用于智能监控、视频内容分析、人机交互等领域。例如，在智能监控中，可以利用该技术自动检测和定位异常声音事件，提高安全预警能力。在视频内容分析中，可以用于理解视频场景中的声音事件，提升视频理解的准确性。在人机交互中，可以用于增强机器对声音环境的感知能力，提升交互体验。

📄 摘要（原文）

This report presents our systems submitted to the audio-only and audio-visual tracks of the DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection (SELD) in Regular Video Content. SELD is a complex task that combines temporal event classification with spatial localization, requiring reasoning across spatial, temporal, and semantic dimensions. The last is arguably the most challenging to model. Traditional SELD architectures rely on multichannel input, which limits their ability to leverage large-scale pre-training due to data constraints. To address this, we enhance standard SELD architectures with semantic information by integrating pre-trained, contrastive language-aligned models: CLAP for audio and OWL-ViT for visual inputs. These embeddings are incorporated into a modified Conformer module tailored for multimodal fusion, which we refer to as the Cross-Modal Conformer. Additionally, we incorporate autocorrelation-based acoustic features to improve distance estimation. We pre-train our models on curated synthetic audio and audio-visual datasets and apply a left-right channel swapping augmentation to further increase the training data. Both our audio-only and audio-visual systems substantially outperform the challenge baselines on the development set, demonstrating the effectiveness of our strategy. Performance is further improved through model ensembling and a visual post-processing step based on human keypoints. Future work will investigate the contribution of each modality and explore architectural variants to further enhance results.

Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理