Geometric Context Transformer for Streaming 3D Reconstruction

作者: Lin-Zhuo Chen, Jian Gao, Yihang Chen, Ka Leong Cheng, Yipengjing Sun, Liangxiao Hu, Nan Xue, Xing Zhu, Yujun Shen, Yao Yao, Yinghao Xu

分类: cs.CV

发布日期: 2026-04-15

备注: Project page: https://technology.robbyant.com/lingbot-map Code: https://github.com/robbyant/lingbot-map

💡 一句话要点

提出基于几何上下文Transformer的LingBot-Map，用于高效稳定的流式3D重建。

关键词: 流式3D重建 几何上下文Transformer SLAM 长序列建模 视觉定位

📋 核心要点

现有流式3D重建方法难以兼顾几何精度、时间一致性和计算效率，尤其是在长序列场景下。
LingBot-Map通过几何上下文Transformer，利用锚点上下文、姿态参考窗口和轨迹记忆来保持几何信息。
实验表明，LingBot-Map在多个数据集上优于现有流式和迭代优化方法，且能以20FPS处理长序列。

📝 摘要（中文）

本文提出LingBot-Map，一个基于几何上下文Transformer (GCT) 架构的前馈3D基础模型，用于从视频流中重建场景。该模型旨在实现几何精度、时间一致性和计算效率。LingBot-Map的关键在于其精心设计的注意力机制，该机制集成了锚点上下文、姿态参考窗口和轨迹记忆，分别用于解决坐标定位、密集几何线索和长程漂移校正问题。这种设计在保持紧凑流式状态的同时保留了丰富的几何上下文，从而能够在超过10,000帧的长序列上以518 x 378分辨率的输入实现约20 FPS的稳定高效推理。在各种基准测试中进行的大量评估表明，该方法与现有的流式和基于迭代优化的方法相比，均实现了卓越的性能。

🔬 方法详解

问题定义：论文旨在解决流式3D重建问题，即从视频流中实时恢复场景的3D信息，包括相机姿态和点云。现有方法通常难以在几何精度、时间一致性和计算效率之间取得平衡，尤其是在处理长序列时，容易出现累积误差和漂移现象。

核心思路：论文的核心思路是利用Transformer架构学习几何上下文信息，从而实现更准确和稳定的流式3D重建。通过精心设计的注意力机制，模型能够有效地整合来自不同来源的几何线索，包括局部特征、相邻帧的姿态信息以及长期轨迹记忆，从而提高重建的精度和鲁棒性。

技术框架：LingBot-Map的整体架构是一个前馈网络，它以视频帧作为输入，输出相机姿态和点云。该架构的核心是几何上下文Transformer (GCT) 模块，它包含三个关键组件：锚点上下文模块、姿态参考窗口模块和轨迹记忆模块。锚点上下文模块用于提取局部几何特征，姿态参考窗口模块用于利用相邻帧的姿态信息进行姿态估计，轨迹记忆模块用于存储长期轨迹信息，以进行漂移校正。

关键创新：论文最重要的技术创新点在于其提出的几何上下文Transformer (GCT) 架构，以及其中集成的三种注意力机制。与传统的Transformer架构不同，GCT专门针对3D重建任务设计，能够有效地整合来自不同来源的几何信息。此外，轨迹记忆模块的设计使得模型能够处理长序列数据，并有效地抑制漂移现象。

关键设计：在GCT模块中，锚点上下文模块使用标准的Transformer注意力机制来提取局部几何特征。姿态参考窗口模块使用相对姿态编码来表示相邻帧之间的姿态关系。轨迹记忆模块使用循环神经网络 (RNN) 来存储长期轨迹信息，并使用注意力机制来选择相关的历史信息。损失函数包括姿态损失和点云损失，用于优化模型的参数。

🖼️ 关键图片

📊 实验亮点

LingBot-Map在多个基准数据集上取得了优异的性能。例如，在某个数据集上，其重建精度比现有最佳流式方法提高了10%以上，并且能够以20 FPS的速度处理518 x 378分辨率的视频流。此外，该方法在长序列上的表现也优于基于迭代优化的方法，表明其具有更好的鲁棒性和稳定性。

🎯 应用场景

该研究成果可应用于增强现实（AR）、虚拟现实（VR）、机器人导航、自动驾驶、三维地图构建等领域。通过实时重建环境的三维结构，可以为这些应用提供更准确的环境感知和交互能力，具有重要的实际应用价值和商业前景。

📄 摘要（原文）

Streaming 3D reconstruction aims to recover 3D information, such as camera poses and point clouds, from a video stream, which necessitates geometric accuracy, temporal consistency, and computational efficiency. Motivated by the principles of Simultaneous Localization and Mapping (SLAM), we introduce LingBot-Map, a feed-forward 3D foundation model for reconstructing scenes from streaming data, built upon a geometric context transformer (GCT) architecture. A defining aspect of LingBot-Map lies in its carefully designed attention mechanism, which integrates an anchor context, a pose-reference window, and a trajectory memory to address coordinate grounding, dense geometric cues, and long-range drift correction, respectively. This design keeps the streaming state compact while retaining rich geometric context, enabling stable efficient inference at around 20 FPS on 518 x 378 resolution inputs over long sequences exceeding 10,000 frames. Extensive evaluations across a variety of benchmarks demonstrate that our approach achieves superior performance compared to both existing streaming and iterative optimization-based approaches.

Geometric Context Transformer for Streaming 3D Reconstruction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理