NVS-SQA: Exploring Self-Supervised Quality Representation Learning for Neurally Synthesized Scenes without References

📄 arXiv: 2501.06488v3 📥 PDF

作者: Qiang Qu, Yiran Shen, Xiaoming Chen, Yuk Ying Chung, Weidong Cai, Tongliang Liu

分类: cs.CV, cs.AI, cs.HC, cs.MM, eess.IV

发布日期: 2025-01-11 (更新: 2025-10-26)

备注: Accepted by TPAMI


💡 一句话要点

提出NVS-SQA,用于神经渲染场景的无参考自监督质量评估

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经渲染 质量评估 自监督学习 无参考图像质量评估 对比学习

📋 核心要点

  1. 现有神经渲染质量评估依赖全参考方法,需要大量参考视图,且人工标注成本高昂,限制了模型泛化能力。
  2. NVS-SQA通过自监督学习无参考质量表示,利用启发式线索和质量分数作为学习目标,无需人工标注。
  3. 实验结果表明,NVS-SQA显著优于现有无参考和全参考方法,在多个指标上取得了大幅提升。

📝 摘要(中文)

神经视角合成(NVS),如NeRF和3D高斯溅射,能够从稀疏视角生成逼真的场景。通常使用PSNR、SSIM和LPIPS等质量评估方法进行评估。然而,这些全参考方法将合成视图与参考视图进行比较,可能无法完全捕捉神经合成场景(NSS)的感知质量,尤其是在参考视图密度有限的情况下。此外,获取人类感知标签的难度阻碍了大规模标注数据集的创建,导致模型过拟合和泛化能力下降。为了解决这些问题,我们提出了NVS-SQA,一种NSS质量评估方法,通过自监督学习无参考质量表示,无需依赖人工标注。传统的自监督学习主要依赖于“相同实例,相似表示”的假设和大量数据集。鉴于这些条件不适用于NSS质量评估,我们采用启发式线索和质量分数作为学习目标,并结合专门的对比对准备过程,以提高学习的有效性和效率。结果表明,NVS-SQA大幅优于17种无参考方法(在SRCC、PLCC和KRCC上平均分别提升109.5%、98.6%和91.5%),甚至超过了16种全参考方法(在SRCC、PLCC和KRCC上平均分别提升22.9%、19.1%和18.6%)。

🔬 方法详解

问题定义:论文旨在解决神经渲染场景质量评估中,对参考视图的依赖以及人工标注成本高昂的问题。现有的全参考方法需要密集的参考视图,而无参考方法性能往往不佳。同时,缺乏大规模标注数据集导致模型容易过拟合,泛化能力受限。

核心思路:论文的核心思路是利用自监督学习,从神经渲染场景本身学习质量表示,无需依赖参考图像和人工标注。通过设计合适的学习目标和对比对准备策略,使模型能够捕捉到图像质量的内在特征。

技术框架:NVS-SQA的整体框架包含以下几个主要模块:1) 图像编码器:用于提取输入图像的特征表示。2) 质量预测器:基于图像特征预测质量得分。3) 对比对生成模块:根据启发式规则生成正负样本对。4) 自监督学习模块:利用对比损失函数优化模型参数。整个流程是,首先通过图像编码器提取图像特征,然后利用质量预测器预测质量得分,接着通过对比对生成模块生成正负样本对,最后利用自监督学习模块优化模型参数。

关键创新:论文最重要的技术创新点在于提出了针对神经渲染场景的自监督质量评估方法,摆脱了对参考图像和人工标注的依赖。此外,论文还设计了专门的对比对准备过程,以及利用启发式线索和质量分数作为学习目标,提高了自监督学习的有效性和效率。

关键设计:在对比对生成方面,论文采用了多种启发式规则,例如对同一场景不同渲染质量的图像进行配对,或者对图像进行不同程度的失真处理。在损失函数方面,论文采用了对比损失函数,鼓励正样本对的特征表示更加接近,负样本对的特征表示更加远离。具体的网络结构未知,但图像编码器和质量预测器通常采用卷积神经网络或Transformer结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

NVS-SQA在神经渲染场景质量评估任务上取得了显著的性能提升。实验结果表明,NVS-SQA大幅优于17种无参考方法(在SRCC、PLCC和KRCC上平均分别提升109.5%、98.6%和91.5%),甚至超过了16种全参考方法(在SRCC、PLCC和KRCC上平均分别提升22.9%、19.1%和18.6%)。这些结果表明,NVS-SQA能够有效地学习神经渲染场景的质量表示,并且具有很强的泛化能力。

🎯 应用场景

NVS-SQA可应用于神经渲染场景的自动质量评估、渲染算法的优化、以及用户体验的提升。例如,在虚拟现实和增强现实应用中,可以利用NVS-SQA自动评估渲染质量,并根据评估结果动态调整渲染参数,从而在有限的计算资源下提供最佳的用户体验。此外,该方法还可以用于训练数据生成,为其他视觉任务提供高质量的合成数据。

📄 摘要(原文)

Neural View Synthesis (NVS), such as NeRF and 3D Gaussian Splatting, effectively creates photorealistic scenes from sparse viewpoints, typically evaluated by quality assessment methods like PSNR, SSIM, and LPIPS. However, these full-reference methods, which compare synthesized views to reference views, may not fully capture the perceptual quality of neurally synthesized scenes (NSS), particularly due to the limited availability of dense reference views. Furthermore, the challenges in acquiring human perceptual labels hinder the creation of extensive labeled datasets, risking model overfitting and reduced generalizability. To address these issues, we propose NVS-SQA, a NSS quality assessment method to learn no-reference quality representations through self-supervision without reliance on human labels. Traditional self-supervised learning predominantly relies on the "same instance, similar representation" assumption and extensive datasets. However, given that these conditions do not apply in NSS quality assessment, we employ heuristic cues and quality scores as learning objectives, along with a specialized contrastive pair preparation process to improve the effectiveness and efficiency of learning. The results show that NVS-SQA outperforms 17 no-reference methods by a large margin (i.e., on average 109.5% in SRCC, 98.6% in PLCC, and 91.5% in KRCC over the second best) and even exceeds 16 full-reference methods across all evaluation metrics (i.e., 22.9% in SRCC, 19.1% in PLCC, and 18.6% in KRCC over the second best).