Splat2Real: Novel-view Scaling for Physical AI with 3D Gaussian Splatting
作者: Hansol Lim, Jongseong Brad Choi
分类: cs.CV
发布日期: 2026-03-11
💡 一句话要点
Splat2Real:利用3D高斯溅射进行物理AI的新视角扩展
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 物理AI 新视角合成 3D高斯溅射 单目深度估计 模仿学习
📋 核心要点
- 物理AI在训练和部署时存在视角差异,单目RGB到3D感知的鲁棒性是关键挑战。
- Splat2Real利用3D高斯溅射(3DGS)生成可扩展的新视角数据,通过模仿学习提升深度网络的性能。
- CN-Coverage策略通过几何增益和新颖性选择视角,并在低质量情况下提供保护机制,显著提升了新视角下的性能。
📝 摘要(中文)
物理AI面临训练和部署之间的视角差异,因此新视角的鲁棒性对于单目RGB到3D感知至关重要。本文将Real2Render2Real单目深度预训练转化为模仿学习式的监督,其中学生深度网络模仿来自数字孪生Oracle的专家度量深度/可见性渲染,而3DGS提供可扩展的新视角观测。本文提出了Splat2Real,其核心是新视角扩展:性能更多地取决于添加哪些视角,而不是原始视角的数量。引入了CN-Coverage,这是一种覆盖率+新颖性的课程学习方法,通过几何增益和外推惩罚贪婪地选择视角,并为低可靠性的教师模型提供质量感知的保护机制。在20个TUM RGB-D序列上,使用步长匹配的预算(N=0到2000个额外的渲染视角,其中N个唯一视角<=500,并对更大的预算进行重采样),朴素的扩展是不稳定的;CN-Coverage缓解了相对于Robot/Coverage策略的最坏情况回归,而GOL-Gated CN-Coverage提供了最强的中高预算稳定性,并具有最低的高新颖性尾部误差。下游控制代理结果与N的关系提供了具身相关的证据,通过改变视角变化下的安全/进度权衡。
🔬 方法详解
问题定义:物理AI系统在实际部署时,往往面临与训练数据不同的视角,这导致单目RGB到3D感知的性能下降。现有的方法要么依赖大量真实数据,要么难以生成高质量的新视角数据,从而限制了模型的泛化能力。
核心思路:本文的核心思路是将新视角生成和深度预训练结合起来,利用3D高斯溅射(3DGS)技术生成高质量、可扩展的新视角数据,并将其作为数字孪生Oracle,以模仿学习的方式监督深度网络的训练。通过智能地选择新视角,提高训练效率和模型鲁棒性。
技术框架:Splat2Real框架主要包含以下几个模块:1) 3DGS场景重建:利用RGB-D数据重建场景的3D高斯模型。2) 新视角生成:基于3DGS模型,生成任意视角下的深度图和可见性信息。3) 深度网络训练:使用生成的新视角数据,以模仿学习的方式训练深度网络,使其能够预测准确的深度信息。4) CN-Coverage视角选择:设计了一种基于覆盖率和新颖性的视角选择策略,用于选择最具信息量的新视角。
关键创新:本文的关键创新在于提出了CN-Coverage视角选择策略,该策略通过几何增益和外推惩罚来选择视角,从而在有限的预算下最大化新视角数据的价值。此外,还引入了质量感知的保护机制,以应对低可靠性教师模型带来的问题。
关键设计:CN-Coverage策略的关键设计包括:1) 几何增益:通过计算新视角相对于现有视角的几何覆盖率增益来评估其价值。2) 外推惩罚:对与现有视角差异过大的视角进行惩罚,以避免引入噪声数据。3) GOL-Gated机制:使用GOL(Geometry, Occlusion, Luminosity)指标评估教师模型的可靠性,并根据可靠性调整损失函数的权重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Splat2Real方法在TUM RGB-D数据集上取得了显著的性能提升。CN-Coverage策略有效地缓解了朴素扩展的不稳定性,并降低了最坏情况下的回归。GOL-Gated CN-Coverage策略在中高预算下表现出最强的稳定性,并具有最低的高新颖性尾部误差。下游控制代理实验也验证了该方法在具身环境中的有效性。
🎯 应用场景
Splat2Real技术可应用于机器人导航、自动驾驶、增强现实等领域。通过提高单目视觉系统的鲁棒性和准确性,可以使机器人在复杂环境中更好地感知和理解周围世界,从而实现更安全、更高效的自主行为。该研究还有助于降低对大量真实数据的依赖,加速物理AI系统的开发和部署。
📄 摘要(原文)
Physical AI faces viewpoint shift between training and deployment, and novel-view robustness is essential for monocular RGB-to-3D perception. We cast Real2Render2Real monocular depth pretraining as imitation-learning-style supervision from a digital twin oracle: a student depth network imitates expert metric depth/visibility rendered from a scene mesh, while 3DGS supplies scalable novel-view observations. We present Splat2Real, centered on novel-view scaling: performance depends more on which views are added than on raw view count. We introduce CN-Coverage, a coverage+novelty curriculum that greedily selects views by geometry gain and an extrapolation penalty, plus a quality-aware guardrail fallback for low-reliability teachers. Across 20 TUM RGB-D sequences with step-matched budgets (N=0 to 2000 additional rendered views, with N unique <= 500 and resampling for larger budgets), naive scaling is unstable; CN-Coverage mitigates worst-case regressions relative to Robot/Coverage policies, and GOL-Gated CN-Coverage provides the strongest medium-high-budget stability with the lowest high-novelty tail error. Downstream control-proxy results versus N provides embodied-relevance evidence by shifting safety/progress trade-offs under viewpoint shift.