ArtifactWorld: Scaling 3D Gaussian Splatting Artifact Restoration via Video Generation Models

📄 arXiv: 2604.12251v1 📥 PDF

作者: Xinliang Wang, Yifeng Shi, Zhenyu Wu

分类: cs.CV

发布日期: 2026-04-14

备注: The second author is the corresponding author


💡 一句话要点

ArtifactWorld:通过视频生成模型扩展3D高斯溅射伪影修复

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 伪影修复 视频生成模型 稀疏视角重建 扩散模型

📋 核心要点

  1. 现有3DGS修复方法在稀疏视角下存在时间一致性差、空间约束不足和数据规模有限等问题,导致重建质量下降。
  2. ArtifactWorld通过构建大规模伪影数据集和设计伪影感知的视频扩散模型,实现更精确的时空修复。
  3. 实验表明,ArtifactWorld在稀疏视角合成和3D重建方面取得了SOTA性能,显著提升了重建质量。

📝 摘要(中文)

3D高斯溅射(3DGS)虽然能实现高保真实时渲染,但在稀疏视角约束下会产生几何和光度退化。现有的生成式修复方法通常受限于时间一致性不足、缺乏显式空间约束以及缺乏大规模训练数据,导致多视角不一致、错误的几何幻觉以及对各种真实世界伪影分布的泛化能力有限。本文提出了ArtifactWorld框架,通过系统的数据扩展和同构双模型范式来解决3DGS伪影修复问题。为了解决数据瓶颈,我们建立了3DGS伪影的细粒度现象学分类,并构建了一个包含107.5K个多样化配对视频片段的综合训练集,以增强模型的鲁棒性。在架构上,我们在视频扩散骨干网络中统一了修复过程,利用同构预测器通过伪影热图来定位结构缺陷。然后,该热图通过伪影感知的三重融合机制来指导修复,从而在原生自注意力中实现精确的、强度引导的时空修复。大量实验表明,ArtifactWorld在稀疏新视角合成和鲁棒的3D重建方面实现了最先进的性能。代码和数据集将会公开。

🔬 方法详解

问题定义:论文旨在解决3D高斯溅射(3DGS)在稀疏视角下重建时产生的几何和光度伪影问题。现有方法,特别是基于生成模型的修复方法,往往缺乏足够的时间一致性,难以保持多视角的一致性,并且由于训练数据不足,泛化能力有限,无法有效处理各种真实场景中的伪影。

核心思路:论文的核心思路是通过大规模数据合成和伪影感知的视频扩散模型来解决上述问题。通过构建一个包含各种伪影类型的大规模数据集,并设计一个能够显式感知和定位伪影的修复框架,从而提高修复的准确性和鲁棒性。

技术框架:ArtifactWorld框架主要包含两个关键部分:数据生成和模型架构。数据生成部分,作者首先对3DGS伪影进行了细粒度的分类,然后基于这些分类合成了包含107.5K个视频片段的大规模训练数据集。模型架构部分,采用视频扩散模型作为主干网络,并引入一个同构预测器来生成伪影热图,用于定位结构缺陷。然后,通过伪影感知的三重融合机制,利用热图引导修复过程。

关键创新:论文的关键创新在于以下几个方面:1) 构建了一个大规模、多样化的3DGS伪影数据集,解决了数据瓶颈问题。2) 提出了一个伪影感知的视频扩散模型,能够显式地定位和修复伪影。3) 引入了三重融合机制,利用伪影热图引导时空修复,提高了修复的精度和一致性。

关键设计:在数据生成方面,作者精心设计了伪影的分类和合成方法,保证了数据集的多样性和真实性。在模型设计方面,同构预测器的具体结构和损失函数的设计,以及三重融合机制的实现细节,例如如何将伪影热图融入到自注意力机制中,都是关键的技术细节。具体的参数设置和网络结构在论文中有详细描述,这里不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ArtifactWorld在稀疏新视角合成和3D重建方面取得了显著的性能提升,达到了SOTA水平。具体而言,该方法在多个数据集上都优于现有的方法,尤其是在处理具有复杂伪影的场景时,其重建质量的提升更为明显。论文中提供了详细的定量和定性实验结果,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要从稀疏视角进行3D重建的场景,例如:移动端的3D扫描、增强现实(AR)、虚拟现实(VR)、机器人导航等。通过提升3D重建的质量和鲁棒性,可以改善用户体验,并为相关应用提供更可靠的数据基础。未来,该技术有望进一步扩展到其他3D重建方法和场景中。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) delivers high-fidelity real-time rendering but suffers from geometric and photometric degradations under sparse-view constraints. Current generative restoration approaches are often limited by insufficient temporal coherence, a lack of explicit spatial constraints, and a lack of large-scale training data, resulting in multi-view inconsistencies, erroneous geometric hallucinations, and limited generalization to diverse real-world artifact distributions. In this paper, we present ArtifactWorld, a framework that resolves 3DGS artifact repair through systematic data expansion and a homogeneous dual-model paradigm. To address the data bottleneck, we establish a fine-grained phenomenological taxonomy of 3DGS artifacts and construct a comprehensive training set of 107.5K diverse paired video clips to enhance model robustness. Architecturally, we unify the restoration process within a video diffusion backbone, utilizing an isomorphic predictor to localize structural defects via an artifact heatmap. This heatmap then guides the restoration through an Artifact-Aware Triplet Fusion mechanism, enabling precise, intensity-guided spatio-temporal repair within native self-attention. Extensive experiments demonstrate that ArtifactWorld achieves state-of-the-art performance in sparse novel view synthesis and robust 3D reconstruction. Code and dataset will be made public.