Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

作者: Hansol Lim, Jongseong Brad Choi

分类: cs.CV

发布日期: 2026-03-11

💡 一句话要点

Splat2Real：利用3D高斯溅射进行物理AI的新视角扩展

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 物理AI 新视角合成 3D高斯溅射 单目深度估计 模仿学习

📋 核心要点

物理AI在训练和部署时存在视角差异，单目RGB到3D感知的鲁棒性是关键挑战。
Splat2Real利用3D高斯溅射（3DGS）生成可扩展的新视角数据，通过模仿学习提升深度网络的性能。
CN-Coverage策略通过几何增益和新颖性选择视角，并在低质量情况下提供保护机制，显著提升了新视角下的性能。

📝 摘要（中文）

物理AI面临训练和部署之间的视角差异，因此新视角的鲁棒性对于单目RGB到3D感知至关重要。本文将Real2Render2Real单目深度预训练转化为模仿学习式的监督，其中学生深度网络模仿来自数字孪生Oracle的专家度量深度/可见性渲染，而3DGS提供可扩展的新视角观测。本文提出了Splat2Real，其核心是新视角扩展：性能更多地取决于添加哪些视角，而不是原始视角的数量。引入了CN-Coverage，这是一种覆盖率+新颖性的课程学习方法，通过几何增益和外推惩罚贪婪地选择视角，并为低可靠性的教师模型提供质量感知的保护机制。在20个TUM RGB-D序列上，使用步长匹配的预算（N=0到2000个额外的渲染视角，其中N个唯一视角<=500，并对更大的预算进行重采样），朴素的扩展是不稳定的；CN-Coverage缓解了相对于Robot/Coverage策略的最坏情况回归，而GOL-Gated CN-Coverage提供了最强的中高预算稳定性，并具有最低的高新颖性尾部误差。下游控制代理结果与N的关系提供了具身相关的证据，通过改变视角变化下的安全/进度权衡。

🔬 方法详解

问题定义：物理AI系统在实际部署时，往往面临与训练数据不同的视角，这导致单目RGB到3D感知的性能下降。现有的方法要么依赖大量真实数据，要么难以生成高质量的新视角数据，从而限制了模型的泛化能力。

核心思路：本文的核心思路是将新视角生成和深度预训练结合起来，利用3D高斯溅射（3DGS）技术生成高质量、可扩展的新视角数据，并将其作为数字孪生Oracle，以模仿学习的方式监督深度网络的训练。通过智能地选择新视角，提高训练效率和模型鲁棒性。

技术框架：Splat2Real框架主要包含以下几个模块：1) 3DGS场景重建：利用RGB-D数据重建场景的3D高斯模型。2) 新视角生成：基于3DGS模型，生成任意视角下的深度图和可见性信息。3) 深度网络训练：使用生成的新视角数据，以模仿学习的方式训练深度网络，使其能够预测准确的深度信息。4) CN-Coverage视角选择：设计了一种基于覆盖率和新颖性的视角选择策略，用于选择最具信息量的新视角。

关键创新：本文的关键创新在于提出了CN-Coverage视角选择策略，该策略通过几何增益和外推惩罚来选择视角，从而在有限的预算下最大化新视角数据的价值。此外，还引入了质量感知的保护机制，以应对低可靠性教师模型带来的问题。

关键设计：CN-Coverage策略的关键设计包括：1) 几何增益：通过计算新视角相对于现有视角的几何覆盖率增益来评估其价值。2) 外推惩罚：对与现有视角差异过大的视角进行惩罚，以避免引入噪声数据。3) GOL-Gated机制：使用GOL（Geometry, Occlusion, Luminosity）指标评估教师模型的可靠性，并根据可靠性调整损失函数的权重。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Splat2Real方法在TUM RGB-D数据集上取得了显著的性能提升。CN-Coverage策略有效地缓解了朴素扩展的不稳定性，并降低了最坏情况下的回归。GOL-Gated CN-Coverage策略在中高预算下表现出最强的稳定性，并具有最低的高新颖性尾部误差。下游控制代理实验也验证了该方法在具身环境中的有效性。

🎯 应用场景

Splat2Real技术可应用于机器人导航、自动驾驶、增强现实等领域。通过提高单目视觉系统的鲁棒性和准确性，可以使机器人在复杂环境中更好地感知和理解周围世界，从而实现更安全、更高效的自主行为。该研究还有助于降低对大量真实数据的依赖，加速物理AI系统的开发和部署。

📄 摘要（原文）

Physical AI faces viewpoint shift between training and deployment, and novel-view robustness is essential for monocular RGB-to-3D perception. We cast Real2Render2Real monocular depth pretraining as imitation-learning-style supervision from a digital twin oracle: a student depth network imitates expert metric depth/visibility rendered from a scene mesh, while 3DGS supplies scalable novel-view observations. We present Splat2Real, centered on novel-view scaling: performance depends more on which views are added than on raw view count. We introduce CN-Coverage, a coverage+novelty curriculum that greedily selects views by geometry gain and an extrapolation penalty, plus a quality-aware guardrail fallback for low-reliability teachers. Across 20 TUM RGB-D sequences with step-matched budgets (N=0 to 2000 additional rendered views, with N unique <= 500 and resampling for larger budgets), naive scaling is unstable; CN-Coverage mitigates worst-case regressions relative to Robot/Coverage policies, and GOL-Gated CN-Coverage provides the strongest medium-high-budget stability with the lowest high-novelty tail error. Downstream control-proxy results versus N provides embodied-relevance evidence by shifting safety/progress trade-offs under viewpoint shift.

Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理