ESIQA: Perceptual Quality Assessment of Vision-Pro-based Egocentric Spatial Images

📄 arXiv: 2407.21363v2 📥 PDF

作者: Xilei Zhu, Liu Yang, Huiyu Duan, Xiongkuo Min, Guangtao Zhai, Patrick Le Callet

分类: cs.CV, cs.MM

发布日期: 2024-07-31 (更新: 2025-02-21)

备注: 9 pages, 12 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出ESIQAnet,用于评估基于Vision Pro的注视点空间图像的感知质量

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 图像质量评估 注视点空间图像 扩展现实 深度学习 Mamba2

📋 核心要点

  1. 现有IQA方法难以有效评估基于Vision Pro等HMD的注视点空间图像的感知质量,因为此类图像具有独特的拍摄和立体特性。
  2. 论文提出ESIQAnet,一种基于Mamba2的多阶段特征融合模型,通过VSSD块提取特征,并利用注意力机制融合双目视图信息和细化特征。
  3. 实验结果表明,ESIQAnet在自建的ESIQAD数据集上,显著优于22种最先进的IQA模型,在2D、3D窗口和3D沉浸式显示模式下均表现出色。

📝 摘要(中文)

随着扩展现实(XR)的发展,基于头戴式显示器(HMD)的照片拍摄和显示技术取得了显著进步并受到了广泛关注。以自我为中心的空间图像和视频正在成为一种引人注目的立体XR内容形式。对XR内容的体验质量(QoE)的评估对于确保高质量的观看体验至关重要。与传统的2D图像不同,以自我为中心的空间图像由于其特殊的拍摄、处理方法和立体特性,给感知质量评估带来了挑战。然而,针对以自我为中心的空间图像的相应图像质量评估(IQA)研究仍然缺乏。在本文中,我们建立了以自我为中心的空间图像质量评估数据库(ESIQAD),据我们所知,这是第一个专门针对以自我为中心的空间图像的IQA数据库。我们的ESIQAD包括500张以自我为中心的空间图像以及在三种显示模式下的相应平均意见得分(MOS),包括2D显示、3D窗口显示和3D沉浸式显示。基于我们的ESIQAD,我们提出了一种新的基于Mamba2的多阶段特征融合模型,称为ESIQAnet,该模型可以预测三种显示模式下以自我为中心的空间图像的感知质量。具体来说,我们首先从多个视觉状态空间对偶(VSSD)块中提取特征,然后应用交叉注意力来融合双目视图信息,并使用转置注意力来进一步细化特征。多阶段特征最终被连接并输入到质量回归网络中以预测质量分数。大量的实验结果表明,在所有三种显示模式下,ESIQAnet在ESIQAD上优于22种最先进的IQA模型。数据库和代码可在https://github.com/IntMeGroup/ESIQA获得。

🔬 方法详解

问题定义:论文旨在解决缺乏针对基于头戴式显示器(HMD)的注视点空间图像的图像质量评估(IQA)方法的问题。现有IQA方法主要针对传统2D图像,无法有效处理注视点空间图像的特殊拍摄方式、立体特性以及不同显示模式(2D、3D窗口、3D沉浸式)带来的影响。这导致在评估此类图像的感知质量时,现有方法表现不佳。

核心思路:论文的核心思路是设计一个能够有效提取和融合注视点空间图像特征,并能适应不同显示模式的IQA模型。该模型基于Mamba2架构,并结合视觉状态空间对偶(VSSD)块和注意力机制,以捕捉图像的立体信息和感知相关特征。通过多阶段特征融合,模型能够更全面地理解图像内容,从而准确预测其感知质量。

技术框架:ESIQAnet的整体架构包括以下几个主要阶段:1) 特征提取:使用多个VSSD块从输入图像中提取多尺度特征。2) 双目视图融合:利用交叉注意力机制融合左右视图的信息,捕捉立体视觉特征。3) 特征细化:采用转置注意力机制进一步细化特征,增强模型的感知能力。4) 多阶段特征融合:将不同阶段提取的特征进行拼接,形成更全面的特征表示。5) 质量回归:将融合后的特征输入到质量回归网络中,预测图像的感知质量得分。

关键创新:论文的关键创新在于:1) 提出了首个专门针对注视点空间图像的IQA数据库ESIQAD,为该领域的研究提供了基准数据集。2) 设计了基于Mamba2的多阶段特征融合模型ESIQAnet,该模型能够有效提取和融合注视点空间图像的特征,并适应不同的显示模式。3) 结合了VSSD块、交叉注意力和转置注意力等技术,增强了模型对立体信息和感知相关特征的捕捉能力。

关键设计:ESIQAnet的关键设计包括:1) VSSD块的结构和参数设置,用于提取多尺度特征。2) 交叉注意力的实现方式,用于融合双目视图信息。3) 转置注意力的实现方式,用于细化特征。4) 多阶段特征融合的具体策略,例如拼接方式和权重分配。5) 质量回归网络的结构和损失函数,用于预测图像的感知质量得分。论文还考虑了不同显示模式对感知质量的影响,并在训练过程中使用了相应的策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ESIQAnet在自建的ESIQAD数据集上显著优于22种最先进的IQA模型。在2D显示模式下,ESIQAnet的性能提升了X%,在3D窗口显示模式下提升了Y%,在3D沉浸式显示模式下提升了Z%(具体数值请参考论文原文)。这些结果验证了ESIQAnet在评估注视点空间图像感知质量方面的有效性。

🎯 应用场景

该研究成果可应用于扩展现实(XR)内容质量评估、图像处理算法优化、以及头戴式显示器(HMD)的显示效果改进等方面。通过准确评估注视点空间图像的感知质量,可以提升用户在XR环境中的体验,并为相关技术的发展提供指导。

📄 摘要(原文)

With the development of eXtended Reality (XR), photo capturing and display technology based on head-mounted displays (HMDs) have experienced significant advancements and gained considerable attention. Egocentric spatial images and videos are emerging as a compelling form of stereoscopic XR content. The assessment for the Quality of Experience (QoE) of XR content is important to ensure a high-quality viewing experience. Different from traditional 2D images, egocentric spatial images present challenges for perceptual quality assessment due to their special shooting, processing methods, and stereoscopic characteristics. However, the corresponding image quality assessment (IQA) research for egocentric spatial images is still lacking. In this paper, we establish the Egocentric Spatial Images Quality Assessment Database (ESIQAD), the first IQA database dedicated for egocentric spatial images as far as we know. Our ESIQAD includes 500 egocentric spatial images and the corresponding mean opinion scores (MOSs) under three display modes, including 2D display, 3D-window display, and 3D-immersive display. Based on our ESIQAD, we propose a novel mamba2-based multi-stage feature fusion model, termed ESIQAnet, which predicts the perceptual quality of egocentric spatial images under the three display modes. Specifically, we first extract features from multiple visual state space duality (VSSD) blocks, then apply cross attention to fuse binocular view information and use transposed attention to further refine the features. The multi-stage features are finally concatenated and fed into a quality regression network to predict the quality score. Extensive experimental results demonstrate that the ESIQAnet outperforms 22 state-of-the-art IQA models on the ESIQAD under all three display modes. The database and code are available at https://github.com/IntMeGroup/ESIQA.