ESVQA: Perceptual Quality Assessment of Egocentric Spatial Videos

📄 arXiv: 2412.20423v2 📥 PDF

作者: Xilei Zhu, Huiyu Duan, Liu Yang, Yucheng Zhu, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet

分类: cs.CV, cs.MM

发布日期: 2024-12-29 (更新: 2025-08-07)

备注: 6 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出ESVQAnet,用于评估第一人称视角空间视频的感知质量,并构建了ESVQAD数据集。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 第一人称视角视频质量评估 空间视频 具身感知 双目视觉 多模态融合 深度学习 扩展现实

📋 核心要点

  1. 现有方法缺乏对第一人称视角空间视频感知质量评估的研究,无法有效评估沉浸式体验。
  2. 提出ESVQAnet,通过融合双目空间、运动和语义特征,预测第一人称视角空间视频的整体感知质量。
  3. 实验结果表明,ESVQAnet在具身感知质量评估任务上显著优于现有VQA模型,并具有良好的泛化能力。

📝 摘要(中文)

随着扩展现实(XR)的快速发展,第一人称视角空间拍摄和显示技术进一步增强了用户的沉浸感和参与度,提供了更具吸引力和互动性的体验。评估第一人称视角空间视频的体验质量(QoE)对于确保高质量的观看体验至关重要。然而,相关的研究仍然缺乏。本文使用具身经验的概念来强调这种更具沉浸感的体验,并研究了一个新的问题,即第一人称视角空间视频的具身感知质量评估。具体来说,我们引入了第一个第一人称视角空间视频质量评估数据库(ESVQAD),它包含600个使用Apple Vision Pro拍摄的第一人称视角空间视频以及它们对应的平均意见得分(MOS)。此外,我们提出了一种新颖的多维双目特征融合模型,称为ESVQAnet,它集成了双目空间、运动和语义特征来预测整体感知质量。实验结果表明,ESVQAnet在具身感知质量评估任务上显著优于16个最先进的VQA模型,并且在传统VQA任务上表现出强大的泛化能力。数据库和代码可在https://github.com/iamazxl/ESVQA获得。

🔬 方法详解

问题定义:论文旨在解决第一人称视角空间视频的感知质量评估问题。现有视频质量评估方法主要针对传统视频,无法有效捕捉空间视频带来的沉浸式体验和双目视觉特性。因此,需要一种新的方法来准确评估这类视频的感知质量。

核心思路:论文的核心思路是利用多维特征融合来模拟人眼对空间视频的感知过程。通过提取双目视频的空间、运动和语义特征,并将它们融合起来,从而更全面地捕捉视频的质量信息。这种方法考虑了双目视觉的特性,能够更好地反映用户在沉浸式体验中的感知质量。

技术框架:ESVQAnet的整体框架包含以下几个主要模块:1) 双目空间特征提取:使用卷积神经网络提取左右视角的空间特征。2) 运动特征提取:使用光流法估计视频帧之间的运动信息,并提取运动特征。3) 语义特征提取:使用预训练的深度学习模型提取视频的语义特征。4) 特征融合:将提取的空间、运动和语义特征进行融合,得到最终的特征表示。5) 质量预测:使用回归模型将融合后的特征映射到感知质量得分。

关键创新:论文的关键创新在于提出了一个多维双目特征融合模型,该模型能够有效地整合空间、运动和语义信息,从而更准确地预测第一人称视角空间视频的感知质量。此外,论文还构建了一个新的数据集ESVQAD,为该领域的研究提供了基准。

关键设计:在网络结构方面,论文采用了ResNet作为空间特征提取器,PWC-Net作为光流估计器,以及BERT作为语义特征提取器。在损失函数方面,论文使用了均方误差(MSE)损失函数来训练回归模型。此外,论文还采用了数据增强技术来提高模型的泛化能力。具体来说,对视频进行了随机裁剪、旋转和颜色变换等操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ESVQAnet在ESVQAD数据集上显著优于16个最先进的VQA模型。具体来说,ESVQAnet在SROCC指标上取得了显著提升,表明其能够更准确地预测视频的感知质量。此外,ESVQAnet在传统VQA任务上也表现出强大的泛化能力,证明了其有效性。

🎯 应用场景

该研究成果可应用于扩展现实(XR)内容制作、视频编码优化、以及视频传输质量保障等领域。通过准确评估第一人称视角空间视频的感知质量,可以提升用户在XR环境中的沉浸式体验,并为相关技术的发展提供指导。

📄 摘要(原文)

With the rapid development of eXtended Reality (XR), egocentric spatial shooting and display technologies have further enhanced immersion and engagement for users, delivering more captivating and interactive experiences. Assessing the quality of experience (QoE) of egocentric spatial videos is crucial to ensure a high-quality viewing experience. However, the corresponding research is still lacking. In this paper, we use the concept of embodied experience to highlight this more immersive experience and study the new problem, i.e., embodied perceptual quality assessment for egocentric spatial videos. Specifically, we introduce the first Egocentric Spatial Video Quality Assessment Database (ESVQAD), which comprises 600 egocentric spatial videos captured using the Apple Vision Pro and their corresponding mean opinion scores (MOSs). Furthermore, we propose a novel multi-dimensional binocular feature fusion model, termed ESVQAnet, which integrates binocular spatial, motion, and semantic features to predict the overall perceptual quality. Experimental results demonstrate the ESVQAnet significantly outperforms 16 state-of-the-art VQA models on the embodied perceptual quality assessment task, and exhibits strong generalization capability on traditional VQA tasks. The database and code are available at https://github.com/iamazxl/ESVQA.