Large Spatial Model: End-to-end Unposed Images to Semantic 3D

📄 arXiv: 2410.18956v2 📥 PDF

作者: Zhiwen Fan, Jian Zhang, Wenyan Cong, Peihao Wang, Renjie Li, Kairun Wen, Shijie Zhou, Achuta Kadambi, Zhangyang Wang, Danfei Xu, Boris Ivanovic, Marco Pavone, Yue Wang

分类: cs.CV

发布日期: 2024-10-24 (更新: 2024-10-30)

备注: Project Website: https://largespatialmodel.github.io


💡 一句话要点

提出Large Spatial Model,实现从无位姿图像到语义3D的端到端重建。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 语义3D重建 辐射场 Transformer 端到端学习 无位姿图像 多尺度融合 语言驱动 各向异性高斯

📋 核心要点

  1. 传统方法重建3D结构需要多个子任务,涉及复杂的数据表示转换,耗时且工程复杂。
  2. LSM通过Transformer架构整合全局几何信息,并结合多尺度融合的局部上下文聚合,提升细节精度。
  3. LSM将2D语言分割模型融入3D语义特征场,利用语义各向异性高斯分布实现端到端学习。

📝 摘要(中文)

本文提出了一种名为Large Spatial Model (LSM) 的方法,可以直接从无位姿的RGB图像中生成语义辐射场。LSM通过单次前向操作同时估计几何、外观和语义信息,并且可以通过与语言交互,从新的视角生成多功能的标签图。LSM利用基于Transformer的架构,通过像素对齐的点图整合全局几何信息。为了增强空间属性回归,LSM结合了多尺度融合的局部上下文聚合,提高了局部细节的精度。为了解决3D语义标注数据稀缺的问题,并实现自然语言驱动的场景操作,LSM将预训练的2D语言分割模型整合到3D一致的语义特征场中。然后,一个高效的解码器参数化一组语义各向异性高斯分布,从而实现端到端的监督学习。在各种任务上的大量实验表明,LSM直接从无位姿图像中统一了多个3D视觉任务,首次实现了实时的语义3D重建。

🔬 方法详解

问题定义:论文旨在解决从少量无位姿RGB图像中进行3D场景重建和语义理解的问题。现有方法通常依赖于多步骤流程,例如SfM,涉及关键点提取、相机参数优化、结构估计等,计算成本高昂,且各个模块之间需要复杂的数据转换,容易引入误差,难以实现端到端的优化。

核心思路:LSM的核心思路是构建一个端到端的模型,直接从无位姿的RGB图像预测语义辐射场。通过将几何、外观和语义信息整合到一个统一的框架中,避免了传统方法中繁琐的中间步骤和数据转换。利用Transformer架构捕获全局几何信息,并结合局部上下文聚合增强细节表达能力。

技术框架:LSM的整体框架包括以下几个主要模块:1)图像编码器:提取输入图像的特征。2)基于Transformer的全局几何整合模块:利用像素对齐的点图整合全局几何信息。3)多尺度局部上下文聚合模块:增强空间属性回归,提高局部细节的精度。4)语义特征场构建模块:将预训练的2D语言分割模型整合到3D一致的语义特征场中。5)语义解码器:参数化一组语义各向异性高斯分布,用于最终的语义3D重建。

关键创新:LSM的关键创新在于其端到端的架构,能够直接从无位姿图像预测语义辐射场,避免了传统方法的多步骤流程。此外,LSM还创新性地将2D语言分割模型融入3D语义特征场,从而利用了大量的2D语义标注数据,并实现了自然语言驱动的场景操作。

关键设计:LSM使用Transformer架构来捕获全局几何信息,并采用像素对齐的点图作为几何表示。多尺度局部上下文聚合模块通过融合不同尺度的特征来增强细节表达能力。语义解码器使用各向异性高斯分布来表示语义信息,并采用端到端的监督学习进行训练。损失函数包括几何损失、外观损失和语义损失,用于优化模型的几何、外观和语义预测能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LSM在多个3D视觉任务上取得了显著的成果,首次实现了实时的语义3D重建。实验结果表明,LSM能够从无位姿图像中准确地重建场景的几何、外观和语义信息,并且能够通过与语言交互,从新的视角生成多功能的标签图。与传统方法相比,LSM在重建精度和效率方面均有显著提升。

🎯 应用场景

LSM具有广泛的应用前景,例如机器人导航、自动驾驶、虚拟现实、增强现实、室内场景理解和三维地图构建等领域。该模型能够从少量图像中快速生成高质量的语义3D模型,为这些应用提供强大的感知能力,并有望推动相关领域的发展。

📄 摘要(原文)

Reconstructing and understanding 3D structures from a limited number of images is a well-established problem in computer vision. Traditional methods usually break this task into multiple subtasks, each requiring complex transformations between different data representations. For instance, dense reconstruction through Structure-from-Motion (SfM) involves converting images into key points, optimizing camera parameters, and estimating structures. Afterward, accurate sparse reconstructions are required for further dense modeling, which is subsequently fed into task-specific neural networks. This multi-step process results in considerable processing time and increased engineering complexity. In this work, we present the Large Spatial Model (LSM), which processes unposed RGB images directly into semantic radiance fields. LSM simultaneously estimates geometry, appearance, and semantics in a single feed-forward operation, and it can generate versatile label maps by interacting with language at novel viewpoints. Leveraging a Transformer-based architecture, LSM integrates global geometry through pixel-aligned point maps. To enhance spatial attribute regression, we incorporate local context aggregation with multi-scale fusion, improving the accuracy of fine local details. To tackle the scarcity of labeled 3D semantic data and enable natural language-driven scene manipulation, we incorporate a pre-trained 2D language-based segmentation model into a 3D-consistent semantic feature field. An efficient decoder then parameterizes a set of semantic anisotropic Gaussians, facilitating supervised end-to-end learning. Extensive experiments across various tasks show that LSM unifies multiple 3D vision tasks directly from unposed images, achieving real-time semantic 3D reconstruction for the first time.