RoSplat: Robust Feed-Forward Pixel-wise Gaussian Splatting for Varying Input Views and High-Resolution Rendering

📄 arXiv: 2605.13093v1 📥 PDF

作者: Hoang Chuong Nguyen, Renjie Wu, Jose M. Alvarez, Miaomiao Liu

分类: cs.CV

发布日期: 2026-05-13


💡 一句话要点

RoSplat:提出鲁棒的前馈像素级高斯溅射,解决视角变化和高分辨率渲染问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 高斯溅射 新视角合成 三维重建 前馈网络 亮度一致性 高分辨率渲染 正则化 视角变化

📋 核心要点

  1. 现有基于像素级前馈的高斯溅射方法,在输入视角数量变化时,渲染结果容易出现过曝问题。
  2. RoSplat通过alpha归一化策略,解决了不同视角数量下的亮度不一致问题,保证渲染结果的亮度稳定。
  3. 引入基于3D采样的正则化器,提升高斯尺度估计的准确性,有效减少了高分辨率渲染中的空洞伪影。

📝 摘要(中文)

通用3D高斯溅射最近成为一种用于新视角合成的有效方法,能够仅从几个输入视图进行前馈合成。然而,现有的像素级前馈方法在推理期间输入视图数量变化时,会出现过度明亮的渲染,并且对准确的高斯尺度估计的监督不足,这导致空洞伪影,尤其是在高分辨率渲染中。为了解决这些问题,我们发现过度明亮是由重叠高斯数量的变化引起的,并提出了一种简单的alpha归一化策略,以保持不同输入视图数量之间的亮度一致性。此外,我们引入了一种辅助的基于3D采样的正则化器,以改进高斯尺度估计,从而减轻高分辨率渲染中的空洞伪影。在基准数据集上的实验表明,我们的方法在不同的输入视角和高分辨率渲染设置下,显著提高了基线模型的性能。

🔬 方法详解

问题定义:现有的基于像素级前馈的高斯溅射方法在新视角合成任务中表现出潜力,但存在两个主要问题。首先,当输入视图的数量在训练和推理阶段不同时,渲染图像会出现过度明亮的问题。这是因为每个像素的颜色是由多个高斯分布混合而成,而高斯分布的数量随着输入视图数量的变化而变化,导致亮度不一致。其次,现有方法对高斯尺度的估计不足,尤其是在高分辨率渲染中,容易产生空洞伪影,影响渲染质量。

核心思路:RoSplat的核心思路是解决亮度不一致和高斯尺度估计不准确的问题。针对亮度不一致问题,RoSplat提出了一种alpha归一化策略,通过对每个像素的alpha值进行归一化,使得渲染结果的亮度与输入视图的数量无关。针对高斯尺度估计不准确的问题,RoSplat引入了一种辅助的基于3D采样的正则化器,通过对3D空间中的点进行采样,并约束采样点与高斯分布之间的关系,从而提高高斯尺度估计的准确性。

技术框架:RoSplat的整体框架基于现有的像素级前馈高斯溅射方法。主要包含以下几个模块:1)特征提取模块:从输入视图中提取图像特征。2)高斯参数预测模块:基于图像特征预测每个像素对应的高斯分布的参数,包括位置、尺度、颜色和透明度。3)渲染模块:将预测的高斯分布渲染成图像。RoSplat在渲染模块中加入了alpha归一化策略,并在训练过程中引入了基于3D采样的正则化器。

关键创新:RoSplat的关键创新在于提出了alpha归一化策略和基于3D采样的正则化器。alpha归一化策略能够有效解决输入视图数量变化导致的亮度不一致问题,保证渲染结果的亮度稳定。基于3D采样的正则化器能够提高高斯尺度估计的准确性,减少高分辨率渲染中的空洞伪影。

关键设计:alpha归一化策略的具体实现是对每个像素的alpha值进行归一化,使其和为1。基于3D采样的正则化器的具体实现是在3D空间中随机采样一些点,并计算这些点与每个高斯分布之间的距离。然后,通过最小化采样点与高斯分布之间的距离的期望,来约束高斯尺度。损失函数包括渲染损失和正则化损失。渲染损失用于保证渲染结果的质量,正则化损失用于约束高斯尺度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

RoSplat在基准数据集上进行了实验,结果表明,该方法在不同的输入视角和高分辨率渲染设置下,显著提高了基线模型的性能。具体来说,RoSplat在视角变化的情况下,能够保持渲染结果的亮度一致性,避免过曝问题。在高分辨率渲染中,RoSplat能够有效减少空洞伪影,提高渲染质量。相比于基线模型,RoSplat在PSNR、SSIM等指标上均有显著提升。

🎯 应用场景

RoSplat具有广泛的应用前景,可应用于新视角合成、虚拟现实、增强现实、三维重建等领域。该方法能够从少量输入视图生成高质量的新视角图像,降低了数据采集的成本。此外,RoSplat在高分辨率渲染方面的优势,使其在需要高质量渲染的应用场景中具有重要价值,例如游戏开发、电影制作等。

📄 摘要(原文)

Generalizable 3D Gaussian Splatting has recently emerged as an efficient approach for novel-view synthesis, enabling feed-forward synthesis from only a few input views. However, existing pixel-wise feed-forward methods suffer from over-bright renderings when the number of input views varies during inference, as well as insufficient supervision for accurate Gaussian scale estimation, which leads to hole artifacts, particularly in high-resolution renderings. To address these issues, we identify that the over-brightness is caused by the varying number of overlapping Gaussians and propose a simple alpha normalization strategy to maintain brightness consistency across different number of input views. In addition, we introduce an auxiliary 3D sampling-based regularizer to improve Gaussian scale estimation, thereby mitigating hole artifacts in high-resolution rendering. Experiments on benchmark datasets demonstrate that our method significantly improves baseline models under varying input-view and high-resolution rendering settings.