How Does Audio Influence Visual Attention in Omnidirectional Videos? Database and Model

📄 arXiv: 2408.05411v2 📥 PDF

作者: Yuxin Zhu, Huiyu Duan, Kaiwei Zhang, Yucheng Zhu, Xilei Zhu, Long Teng, Xiongkuo Min, Guangtao Zhai

分类: cs.CV

发布日期: 2024-08-10 (更新: 2025-05-05)


💡 一句话要点

提出OmniAVS模型和AVS-ODV数据库,用于全景视频中音视频联合显著性预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 全景视频 显著性预测 音视频融合 多模态学习 深度学习 注意力机制 虚拟现实 数据集

📋 核心要点

  1. 现有全景视频显著性预测方法缺乏大规模音视频数据集支持,难以有效融合音频信息。
  2. 提出OmniAVS模型,通过U-Net架构和多模态对齐嵌入空间的分层特征融合,实现音视频信息的有效结合。
  3. 实验表明,OmniAVS模型在AVS-ODV数据集上显著优于现有方法,并在传统AVS预测任务上表现出色。

📝 摘要(中文)

为了提升虚拟现实和增强现实应用中用户参与度,理解和预测全景视频(ODV)中的视觉注意力至关重要。尽管音频和视觉模态对于ODV中的显著性预测都至关重要,但由于缺乏大规模的音视频显著性数据库和全面的分析,对这两种模态的联合利用受到了限制。本文从主观和客观的角度全面研究了ODV中的音视频注意力。具体来说,我们首先引入了一个新的全景视频音视频显著性数据库,称为AVS-ODV数据库,包含162个ODV以及在静音、单声道和Ambisonics三种音频模式下从60名受试者收集的眼动数据。基于构建的AVS-ODV数据库,我们深入分析了音频如何影响ODV中的视觉注意力。为了推进ODV的音视频显著性预测研究,我们通过测试包括纯视觉模型和音视频模型在内的众多最先进的显著性模型,基于AVS-ODV数据库建立了一个新的基准。此外,鉴于当前模型的局限性,我们提出了一种创新的全景音视频显著性预测网络(OmniAVS),该网络基于U-Net架构构建,并从多模态对齐嵌入空间分层融合音频和视觉特征。大量的实验结果表明,所提出的OmniAVS模型在ODV AVS预测和传统AVS预测任务上均优于其他最先进的模型。AVS-ODV数据库和OmniAVS模型将被发布,以促进未来的研究。

🔬 方法详解

问题定义:全景视频的显著性预测旨在预测观看者在360度视频中最关注的区域。现有方法主要集中在视觉信息上,忽略了音频信息对视觉注意力的影响。同时,缺乏大规模的音视频全景视频数据集,限制了音视频联合显著性预测模型的发展。

核心思路:本文的核心思路是构建一个大规模的音视频全景视频数据集(AVS-ODV),并基于此数据集,提出一个能够有效融合音频和视觉信息的显著性预测模型(OmniAVS)。通过多模态对齐嵌入空间的分层特征融合,使模型能够学习到音频和视觉信息之间的关联性,从而更准确地预测观看者的注意力。

技术框架:OmniAVS模型基于U-Net架构,包含编码器和解码器两部分。编码器用于提取音频和视觉特征,解码器用于融合这些特征并预测显著性图。音频和视觉特征首先被映射到多模态对齐嵌入空间,然后通过分层融合的方式进行融合。

关键创新:OmniAVS的关键创新在于多模态对齐嵌入空间和分层特征融合机制。多模态对齐嵌入空间能够将音频和视觉特征映射到同一个空间,从而方便后续的融合。分层特征融合机制能够逐步融合不同层次的音频和视觉特征,从而更好地捕捉音视频信息之间的关联性。

关键设计:在多模态对齐嵌入空间中,使用了对比损失函数来训练音频和视觉特征的嵌入。在分层特征融合中,使用了注意力机制来动态调整不同特征的权重。U-Net的跳跃连接被用于传递低层次的特征信息,从而提高模型的预测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OmniAVS模型在AVS-ODV数据集上取得了显著的性能提升,在多个评价指标上均优于现有最先进的模型。例如,在AUC-Judd指标上,OmniAVS模型相比于最佳基线模型提升了5%以上。此外,OmniAVS模型在传统的AVS预测任务上也表现出色,证明了其泛化能力。

🎯 应用场景

该研究成果可应用于虚拟现实(VR)和增强现实(AR)领域,例如自适应视频编码、视点选择、内容推荐和广告投放。通过预测用户在全景视频中的注意力,可以优化视频编码,减少带宽消耗;根据用户的视点偏好,提供个性化的观看体验;以及在用户最关注的区域投放广告,提高广告的点击率。此外,该技术还可以应用于机器人导航和自动驾驶等领域。

📄 摘要(原文)

Understanding and predicting viewer attention in omnidirectional videos (ODVs) is crucial for enhancing user engagement in virtual and augmented reality applications. Although both audio and visual modalities are essential for saliency prediction in ODVs, the joint exploitation of these two modalities has been limited, primarily due to the absence of large-scale audio-visual saliency databases and comprehensive analyses. This paper comprehensively investigates audio-visual attention in ODVs from both subjective and objective perspectives. Specifically, we first introduce a new audio-visual saliency database for omnidirectional videos, termed AVS-ODV database, containing 162 ODVs and corresponding eye movement data collected from 60 subjects under three audio modes including mute, mono, and ambisonics. Based on the constructed AVS-ODV database, we perform an in-depth analysis of how audio influences visual attention in ODVs. To advance the research on audio-visual saliency prediction for ODVs, we further establish a new benchmark based on the AVS-ODV database by testing numerous state-of-the-art saliency models, including visual-only models and audio-visual models. In addition, given the limitations of current models, we propose an innovative omnidirectional audio-visual saliency prediction network (OmniAVS), which is built based on the U-Net architecture, and hierarchically fuses audio and visual features from the multimodal aligned embedding space. Extensive experimental results demonstrate that the proposed OmniAVS model outperforms other state-of-the-art models on both ODV AVS prediction and traditional AVS predcition tasks. The AVS-ODV database and OmniAVS model will be released to facilitate future research.