UniSem: Generalizable Semantic 3D Reconstruction from Sparse Unposed Images

📄 arXiv: 2603.17519v1 📥 PDF

作者: Guibiao Liao, Qian Ren, Kaimin Liao, Hua Wang, Zhi Chen, Luchao Wang, Yaohua Tang

分类: cs.CV

发布日期: 2026-03-18


💡 一句话要点

UniSem:从稀疏无位姿图像中实现可泛化的语义3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 语义3D重建 3D高斯溅射 稀疏视图 深度估计 语义分割 泛化能力 误差感知Dropout

📋 核心要点

  1. 现有方法在稀疏视角下重建语义3D时,易产生冗余高斯基元,导致几何结构不稳定和深度质量下降。
  2. UniSem通过误差感知高斯Dropout抑制冗余高斯,并结合混合训练课程融合2D和3D语义先验,提升重建质量。
  3. 实验表明,UniSem在ScanNet和Replica数据集上,显著提升了深度预测精度和开放词汇3D分割性能。

📝 摘要(中文)

针对基于前馈3D高斯溅射(3DGS)的稀疏无位姿图像语义3D重建面临的挑战,现有方法在稀疏视角监督下通常预测过度完备的高斯基元集合,导致不稳定的几何结构和较差的深度质量。同时,它们仅依赖于2D分割器特征进行语义提升,这提供了较弱的3D级别和有限的可泛化监督,从而导致新场景中不完整的3D语义。为了解决这些问题,我们提出了UniSem,一个统一的框架,通过两个关键组件共同提高深度精度和语义泛化能力。首先,误差感知高斯Dropout (EGD)通过使用渲染误差线索抑制容易冗余的高斯,执行误差引导的容量控制,产生有意义的、几何稳定的高斯表示,以改进深度估计。其次,我们引入了一种混合训练课程(MTC),它逐步将2D分割器提升的语义与模型自身涌现的3D语义先验混合,通过对象级原型对齐来实现,以增强语义一致性和完整性。在ScanNet和Replica上的大量实验表明,UniSem在不同数量的输入视图下,在深度预测和开放词汇3D分割方面都取得了优异的性能。值得注意的是,在16视图输入下,UniSem将深度Rel降低了15.2%,并将开放词汇分割mAcc提高了3.7%,优于强大的基线。

🔬 方法详解

问题定义:论文旨在解决从稀疏、无位姿图像中进行语义3D重建的问题。现有方法,特别是基于3D高斯溅射(3DGS)的方法,在稀疏视角下容易生成过完备的高斯基元集合,导致重建的几何结构不稳定,深度质量较差。此外,现有方法主要依赖2D分割器的特征进行语义提升,缺乏有效的3D级别的监督,导致在新场景下的语义泛化能力不足,3D语义信息不完整。

核心思路:UniSem的核心思路是通过联合优化深度精度和语义泛化能力来解决上述问题。它通过两个关键组件实现:一是误差感知高斯Dropout (EGD),用于控制高斯基元的容量,避免冗余;二是混合训练课程(MTC),用于融合2D分割器提供的语义信息和模型自身学习到的3D语义先验。这样设计的目的是为了提高重建的几何稳定性和语义完整性,并增强模型在新场景下的泛化能力。

技术框架:UniSem的整体框架包含两个主要模块:EGD和MTC。EGD模块通过渲染误差来指导高斯基元的Dropout,抑制冗余的高斯,从而提高几何结构的稳定性。MTC模块则通过逐步混合2D分割器提升的语义和模型自身的3D语义先验,并利用对象级别的原型对齐来增强语义的一致性和完整性。整个框架以端到端的方式进行训练,从而实现深度精度和语义泛化能力的联合优化。

关键创新:UniSem的关键创新在于以下两点:一是提出了误差感知高斯Dropout (EGD),它利用渲染误差作为指导信号,动态地调整高斯基元的数量,避免了过拟合和冗余表示。二是提出了混合训练课程(MTC),它将2D分割器提供的外部语义知识与模型自身学习到的3D语义先验相结合,从而提高了语义的泛化能力和完整性。与现有方法相比,UniSem能够更有效地利用稀疏视角的信息,并生成更准确、更完整的语义3D重建结果。

关键设计:EGD的关键设计在于使用渲染误差来计算每个高斯基元的Dropout概率。具体来说,渲染误差较大的高斯基元更有可能被Dropout,从而抑制冗余表示。MTC的关键设计在于逐步增加模型自身3D语义先验的权重,并使用对象级别的原型对齐来增强语义的一致性。损失函数包括深度损失、语义损失和原型对齐损失。具体的网络结构细节和参数设置在论文中有详细描述,但此处未提供。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniSem在ScanNet和Replica数据集上取得了显著的性能提升。在16视图输入下,UniSem将深度Rel降低了15.2%,并将开放词汇分割mAcc提高了3.7%,优于现有的强大基线。这些结果表明,UniSem能够有效地提高深度预测精度和语义泛化能力,从而实现更准确、更完整的语义3D重建。

🎯 应用场景

UniSem在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。高质量的语义3D重建可以帮助机器人更好地理解周围环境,从而实现更智能的导航和交互。在自动驾驶领域,UniSem可以用于构建更准确的场景模型,提高车辆的感知能力和安全性。在增强现实领域,UniSem可以用于创建更逼真的虚拟场景,提升用户体验。

📄 摘要(原文)

Semantic-aware 3D reconstruction from sparse, unposed images remains challenging for feed-forward 3D Gaussian Splatting (3DGS). Existing methods often predict an over-complete set of Gaussian primitives under sparse-view supervision, leading to unstable geometry and inferior depth quality. Meanwhile, they rely solely on 2D segmenter features for semantic lifting, which provides weak 3D-level and limited generalizable supervision, resulting in incomplete 3D semantics in novel scenes. To address these issues, we propose UniSem, a unified framework that jointly improves depth accuracy and semantic generalization via two key components. First, Error-aware Gaussian Dropout (EGD) performs error-guided capacity control by suppressing redundancy-prone Gaussians using rendering error cues, producing meaningful, geometrically stable Gaussian representations for improved depth estimation. Second, we introduce a Mix-training Curriculum (MTC) that progressively blends 2D segmenter-lifted semantics with the model's own emergent 3D semantic priors, implemented with object-level prototype alignment to enhance semantic coherence and completeness. Extensive experiments on ScanNet and Replica show that UniSem achieves superior performance in depth prediction and open-vocabulary 3D segmentation across varying numbers of input views. Notably, with 16-view inputs, UniSem reduces depth Rel by 15.2% and improves open-vocabulary segmentation mAcc by 3.7% over strong baselines.