AirSplat: Alignment and Rating for Robust Feed-Forward 3D Gaussian Splatting

📄 arXiv: 2603.25129v1 📥 PDF

作者: Minh-Quan Viet Bui, Jaeho Moon, Munchurl Kim

分类: cs.CV

发布日期: 2026-03-26

备注: Project page: https://kaist-viclab.github.io/airsplat-site


💡 一句话要点

AirSplat:对齐与评分,实现稳健的前馈3D高斯溅射

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 3D视觉基础模型 高斯溅射 姿态对齐 几何一致性

📋 核心要点

  1. 现有方法难以将3D视觉基础模型直接应用于可泛化的新视角合成,存在姿态-几何不一致等问题。
  2. AirSplat通过自洽姿态对齐和基于评分的不透明度匹配,将3D视觉基础模型的几何先验知识融入无姿态新视角合成。
  3. 实验表明,AirSplat在重建质量上显著优于现有无姿态新视角合成方法,验证了其有效性。

📝 摘要(中文)

尽管3D视觉基础模型(3DVFMs)在视觉几何估计方面表现出卓越的零样本能力,但将其直接应用于可泛化的新视角合成(NVS)仍然具有挑战性。本文提出了AirSplat,一种新颖的训练框架,可有效地将3DVFMs的鲁棒几何先验知识应用于高保真、无姿态NVS。我们的方法引入了两项关键技术贡献:(1)自洽姿态对齐(SCPA),一种训练时反馈循环,可确保像素对齐的监督,以解决姿态-几何不一致性;(2)基于评分的不透明度匹配(ROM),它利用来自稀疏视角NVS教师模型的局部3D几何一致性知识来过滤掉退化的图元。在大型基准测试上的实验结果表明,我们的方法在重建质量方面显著优于最先进的无姿态NVS方法。我们的AirSplat突出了调整3DVFMs以实现同步视觉几何估计和高质量视角合成的潜力。

🔬 方法详解

问题定义:论文旨在解决新视角合成(NVS)中,如何有效利用3D视觉基础模型(3DVFMs)的几何先验知识,实现高保真、无姿态的新视角合成的问题。现有方法直接应用3DVFMs到NVS时,存在姿态-几何不一致的问题,导致合成质量下降。

核心思路:论文的核心思路是通过训练时的反馈循环(自洽姿态对齐,SCPA)来解决姿态-几何不一致的问题,并利用教师模型提供的局部3D几何一致性知识(基于评分的不透明度匹配,ROM)来过滤掉退化的图元,从而提升合成质量。这样设计的目的是为了将3DVFMs的几何先验知识有效地融入到NVS任务中,同时避免姿态估计误差带来的影响。

技术框架:AirSplat的整体框架包含两个主要模块:自洽姿态对齐(SCPA)和基于评分的不透明度匹配(ROM)。SCPA模块通过一个训练时的反馈循环,不断调整姿态估计,使其与几何信息保持一致。ROM模块则利用一个稀疏视角NVS教师模型,为每个图元(primitive)打分,并根据评分过滤掉质量较差的图元。这两个模块共同作用,提升了NVS的合成质量。

关键创新:论文的关键创新在于提出了自洽姿态对齐(SCPA)和基于评分的不透明度匹配(ROM)两种技术。SCPA通过训练时的反馈循环,解决了姿态-几何不一致的问题,这是现有方法所缺乏的。ROM则利用教师模型的知识,过滤掉退化的图元,进一步提升了合成质量。与现有方法相比,AirSplat能够更有效地利用3DVFMs的几何先验知识,实现更高质量的无姿态NVS。

关键设计:SCPA模块的关键设计在于其反馈循环,该循环不断比较预测的姿态和几何信息,并根据差异调整姿态估计。ROM模块的关键设计在于教师模型的选择和评分机制,教师模型需要能够提供可靠的局部3D几何一致性知识,评分机制需要能够准确地评估每个图元的质量。具体的损失函数和网络结构等细节在论文中有详细描述,但摘要中未提及。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AirSplat在大型基准测试中显著优于现有的无姿态新视角合成方法,证明了其有效性。具体的性能数据和对比基线在摘要中未给出,但强调了重建质量的显著提升。这表明AirSplat能够有效地利用3D视觉基础模型的几何先验知识,实现更高质量的无姿态新视角合成。

🎯 应用场景

AirSplat的研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过高质量的新视角合成,可以提升机器人对环境的感知能力,改善虚拟现实和增强现实的用户体验。该研究还有助于推动3D视觉基础模型在实际场景中的应用,具有重要的实际价值和未来影响。

📄 摘要(原文)

While 3D Vision Foundation Models (3DVFMs) have demonstrated remarkable zero-shot capabilities in visual geometry estimation, their direct application to generalizable novel view synthesis (NVS) remains challenging. In this paper, we propose AirSplat, a novel training framework that effectively adapts the robust geometric priors of 3DVFMs into high-fidelity, pose-free NVS. Our approach introduces two key technical contributions: (1) Self-Consistent Pose Alignment (SCPA), a training-time feedback loop that ensures pixel-aligned supervision to resolve pose-geometry discrepancy; and (2) Rating-based Opacity Matching (ROM), which leverages the local 3D geometry consistency knowledge from a sparse-view NVS teacher model to filter out degraded primitives. Experimental results on large-scale benchmarks demonstrate that our method significantly outperforms state-of-the-art pose-free NVS approaches in reconstruction quality. Our AirSplat highlights the potential of adapting 3DVFMs to enable simultaneous visual geometry estimation and high-quality view synthesis.