PLANING: A Loosely Coupled Triangle-Gaussian Framework for Streaming 3D Reconstruction

📄 arXiv: 2601.22046v1 📥 PDF

作者: Changjian Jiang, Kerui Ren, Xudong Li, Kaiwen Song, Linning Xu, Tao Lu, Junting Dong, Yu Zhang, Bo Dai, Mulin Yu

分类: cs.CV

发布日期: 2026-01-29

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PLANING:一种用于流式3D重建的松耦合三角-高斯框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 流式重建 三维重建 神经高斯 几何建模 单目视觉 混合表示 松耦合优化

📋 核心要点

  1. 现有单目图像序列流式重建方法难以兼顾高质量渲染和精确几何建模。
  2. PLANING通过松耦合的显式几何基元和神经高斯混合表示,解耦几何与外观建模。
  3. 实验表明,PLANING在重建质量和速度上均优于现有方法,尤其在ScanNetV2数据集上。

📝 摘要(中文)

本文提出PLANING,一个高效的在线重建框架,它基于一种混合表示,将显式几何基元与神经高斯松耦合,从而以解耦的方式对几何和外观进行建模。这种解耦支持一种在线初始化和优化策略,该策略分离了几何和外观更新,从而实现稳定的流式重建,并显著减少结构冗余。PLANING在密集网格Chamfer-L2距离上比PGSR提高了18.52%,在PSNR上超过ARTDECO 1.31 dB,并在不到100秒内重建ScanNetV2场景,比2D高斯溅射快5倍以上,同时匹配了离线单场景优化的质量。除了重建质量之外,PLANING的结构清晰性和计算效率使其非常适合广泛的下游应用,例如支持大规模场景建模和用于具身AI的模拟就绪环境。

🔬 方法详解

问题定义:现有单目图像序列的流式三维重建方法通常难以同时保证高质量的渲染效果和精确的几何结构。一些方法侧重于渲染质量,而忽略了几何精度;另一些方法则专注于几何重建,但渲染效果不佳。此外,现有方法往往存在结构冗余,导致计算效率低下,难以满足实时性要求。

核心思路:PLANING的核心思路是将显式的几何基元(三角形网格)与神经高斯表示松耦合,从而实现几何和外观的解耦建模。这种解耦允许分别优化几何和外观,避免了两者之间的相互干扰,从而提高了重建质量和效率。通过这种方式,可以利用显式几何基元提供结构信息,同时利用神经高斯表示进行高质量的渲染。

技术框架:PLANING框架主要包含以下几个阶段:1) 初始化:使用三角网格初始化场景几何结构。2) 几何优化:在线更新三角网格,优化场景几何。3) 外观优化:使用神经高斯表示场景外观,并进行优化。4) 渲染:使用优化后的几何和外观信息进行渲染。整个框架采用松耦合的设计,几何和外观的更新可以独立进行。

关键创新:PLANING的关键创新在于其混合表示和松耦合的优化策略。传统的重建方法通常使用单一的表示方式(如网格或点云),难以同时兼顾几何精度和渲染质量。PLANING通过结合显式几何基元和神经高斯,实现了几何和外观的解耦建模,从而提高了重建质量。此外,PLANING的松耦合优化策略允许分别优化几何和外观,避免了两者之间的相互干扰,从而提高了优化效率。

关键设计:PLANING的关键设计包括:1) 三角网格的初始化方法,确保初始几何结构的合理性。2) 几何优化的损失函数,用于约束三角网格的形状和位置。3) 神经高斯表示的参数化方式,以及外观优化的损失函数,用于提高渲染质量。4) 松耦合优化策略的具体实现,包括几何和外观更新的频率和顺序。具体的参数设置和网络结构在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PLANING在多个数据集上取得了显著的性能提升。在密集网格Chamfer-L2距离上,PLANING比PGSR提高了18.52%。在PSNR指标上,PLANING超过了ARTDECO 1.31 dB。在ScanNetV2数据集上,PLANING在不到100秒内完成了场景重建,比2D高斯溅射快5倍以上,同时达到了与离线单场景优化相当的质量。这些结果表明,PLANING在重建质量和效率上均优于现有方法。

🎯 应用场景

PLANING具有广泛的应用前景,包括:大规模场景建模、虚拟现实/增强现实、机器人导航、自动驾驶、以及用于具身AI的模拟环境。其高效的流式重建能力使其能够应用于实时场景理解和交互,为相关领域的研究和应用提供了新的可能性。该方法能够生成结构清晰且计算高效的模型,使其非常适合下游任务。

📄 摘要(原文)

Streaming reconstruction from monocular image sequences remains challenging, as existing methods typically favor either high-quality rendering or accurate geometry, but rarely both. We present PLANING, an efficient on-the-fly reconstruction framework built on a hybrid representation that loosely couples explicit geometric primitives with neural Gaussians, enabling geometry and appearance to be modeled in a decoupled manner. This decoupling supports an online initialization and optimization strategy that separates geometry and appearance updates, yielding stable streaming reconstruction with substantially reduced structural redundancy. PLANING improves dense mesh Chamfer-L2 by 18.52% over PGSR, surpasses ARTDECO by 1.31 dB PSNR, and reconstructs ScanNetV2 scenes in under 100 seconds, over 5x faster than 2D Gaussian Splatting, while matching the quality of offline per-scene optimization. Beyond reconstruction quality, the structural clarity and computational efficiency of \modelname~make it well suited for a broad range of downstream applications, such as enabling large-scale scene modeling and simulation-ready environments for embodied AI. Project page: https://city-super.github.io/PLANING/ .