AirSplat: Alignment and Rating for Robust Feed-Forward 3D Gaussian Splatting

作者: Minh-Quan Viet Bui, Jaeho Moon, Munchurl Kim

分类: cs.CV

发布日期: 2026-03-26

备注: Project page: https://kaist-viclab.github.io/airsplat-site

💡 一句话要点

AirSplat：对齐与评分，实现稳健的前馈3D高斯溅射

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 新视角合成 3D视觉基础模型 高斯溅射 姿态对齐 几何一致性

📋 核心要点

现有方法难以将3D视觉基础模型直接应用于可泛化的新视角合成，存在姿态-几何不一致等问题。
AirSplat通过自洽姿态对齐和基于评分的不透明度匹配，将3D视觉基础模型的几何先验知识融入无姿态新视角合成。
实验表明，AirSplat在重建质量上显著优于现有无姿态新视角合成方法，验证了其有效性。

📝 摘要（中文）

尽管3D视觉基础模型(3DVFMs)在视觉几何估计方面表现出卓越的零样本能力，但将其直接应用于可泛化的新视角合成(NVS)仍然具有挑战性。本文提出了AirSplat，一种新颖的训练框架，可有效地将3DVFMs的鲁棒几何先验知识应用于高保真、无姿态NVS。我们的方法引入了两项关键技术贡献：(1)自洽姿态对齐(SCPA)，一种训练时反馈循环，可确保像素对齐的监督，以解决姿态-几何不一致性；(2)基于评分的不透明度匹配(ROM)，它利用来自稀疏视角NVS教师模型的局部3D几何一致性知识来过滤掉退化的图元。在大型基准测试上的实验结果表明，我们的方法在重建质量方面显著优于最先进的无姿态NVS方法。我们的AirSplat突出了调整3DVFMs以实现同步视觉几何估计和高质量视角合成的潜力。

🔬 方法详解

问题定义：论文旨在解决新视角合成（NVS）中，如何有效利用3D视觉基础模型（3DVFMs）的几何先验知识，实现高保真、无姿态的新视角合成的问题。现有方法直接应用3DVFMs到NVS时，存在姿态-几何不一致的问题，导致合成质量下降。

核心思路：论文的核心思路是通过训练时的反馈循环（自洽姿态对齐，SCPA）来解决姿态-几何不一致的问题，并利用教师模型提供的局部3D几何一致性知识（基于评分的不透明度匹配，ROM）来过滤掉退化的图元，从而提升合成质量。这样设计的目的是为了将3DVFMs的几何先验知识有效地融入到NVS任务中，同时避免姿态估计误差带来的影响。

技术框架：AirSplat的整体框架包含两个主要模块：自洽姿态对齐（SCPA）和基于评分的不透明度匹配（ROM）。SCPA模块通过一个训练时的反馈循环，不断调整姿态估计，使其与几何信息保持一致。ROM模块则利用一个稀疏视角NVS教师模型，为每个图元（primitive）打分，并根据评分过滤掉质量较差的图元。这两个模块共同作用，提升了NVS的合成质量。

关键创新：论文的关键创新在于提出了自洽姿态对齐（SCPA）和基于评分的不透明度匹配（ROM）两种技术。SCPA通过训练时的反馈循环，解决了姿态-几何不一致的问题，这是现有方法所缺乏的。ROM则利用教师模型的知识，过滤掉退化的图元，进一步提升了合成质量。与现有方法相比，AirSplat能够更有效地利用3DVFMs的几何先验知识，实现更高质量的无姿态NVS。

关键设计：SCPA模块的关键设计在于其反馈循环，该循环不断比较预测的姿态和几何信息，并根据差异调整姿态估计。ROM模块的关键设计在于教师模型的选择和评分机制，教师模型需要能够提供可靠的局部3D几何一致性知识，评分机制需要能够准确地评估每个图元的质量。具体的损失函数和网络结构等细节在论文中有详细描述，但摘要中未提及。

🖼️ 关键图片

📊 实验亮点

AirSplat在大型基准测试中显著优于现有的无姿态新视角合成方法，证明了其有效性。具体的性能数据和对比基线在摘要中未给出，但强调了重建质量的显著提升。这表明AirSplat能够有效地利用3D视觉基础模型的几何先验知识，实现更高质量的无姿态新视角合成。

🎯 应用场景

AirSplat的研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过高质量的新视角合成，可以提升机器人对环境的感知能力，改善虚拟现实和增强现实的用户体验。该研究还有助于推动3D视觉基础模型在实际场景中的应用，具有重要的实际价值和未来影响。

📄 摘要（原文）

While 3D Vision Foundation Models (3DVFMs) have demonstrated remarkable zero-shot capabilities in visual geometry estimation, their direct application to generalizable novel view synthesis (NVS) remains challenging. In this paper, we propose AirSplat, a novel training framework that effectively adapts the robust geometric priors of 3DVFMs into high-fidelity, pose-free NVS. Our approach introduces two key technical contributions: (1) Self-Consistent Pose Alignment (SCPA), a training-time feedback loop that ensures pixel-aligned supervision to resolve pose-geometry discrepancy; and (2) Rating-based Opacity Matching (ROM), which leverages the local 3D geometry consistency knowledge from a sparse-view NVS teacher model to filter out degraded primitives. Experimental results on large-scale benchmarks demonstrate that our method significantly outperforms state-of-the-art pose-free NVS approaches in reconstruction quality. Our AirSplat highlights the potential of adapting 3DVFMs to enable simultaneous visual geometry estimation and high-quality view synthesis.

AirSplat: Alignment and Rating for Robust Feed-Forward 3D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理