PointForward: Feedforward Driving Reconstruction through Point-Aligned Representations

📄 arXiv: 2605.11594v1 📥 PDF

作者: Cheng Chi, Xianqi Wang, Hongcheng Luo, Mingfei Tu, Gangwei Xu, Zehan Zhang, Bing Wang, Guang Chen, Hangjun Ye, Sida Peng, Xin Yang, Haiyang Sun

分类: cs.CV

发布日期: 2026-05-12


💡 一句话要点

PointForward:提出基于点对齐表示的feedforward自动驾驶场景重建方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 场景重建 3D高斯溅射 点云 多视角几何 动态场景 场景图 feedforward网络

📋 核心要点

  1. 现有feedforward 3DGS方法在驾驶场景重建中存在多视角不一致和动态实例建模缺乏跨视角对应的问题。
  2. PointForward通过在世界空间初始化3D查询点,并进行时空融合,实现跨视角一致的feedforward重建。
  3. PointForward引入场景图来组织动态实例,并利用3D边界框实现实例级别的运动传播,提升动态场景重建效果。

📝 摘要(中文)

高保真驾驶场景重建对于自动驾驶至关重要。虽然最近的feedforward 3D高斯溅射(3DGS)方法能够实现快速重建,但它们基于像素的高斯预测范式通常会受到多视角不一致和分层伪影的影响。此外,现有方法通常通过密集光流预测来建模动态实例,缺乏显式的跨视角对应关系和实例级别的连贯性。本文提出了PointForward,一个通过点对齐表示的feedforward驾驶重建框架。与像素对齐方法不同,我们在世界空间中初始化稀疏的3D查询点,并通过时空融合将多视角图像信息聚合到这些查询点上,从而在单个feedforward过程中强制执行显式的跨视角一致性。为了处理场景动态,我们引入了场景图,在重建过程中显式地组织移动实例。通过利用3D边界框,我们的方法能够实现实例级别的运动传播和时间上一致的动态表示。大量的实验表明,PointForward在大型驾驶基准测试中实现了最先进的性能。代码将在论文发表后公开。

🔬 方法详解

问题定义:现有基于像素的feedforward 3D高斯溅射方法在自动驾驶场景重建中存在两个主要问题:一是多视角不一致性,导致重建结果出现伪影;二是动态场景建模缺乏实例级别的连贯性,难以准确捕捉运动物体的行为。这些问题限制了自动驾驶系统对周围环境的理解和预测能力。

核心思路:PointForward的核心思路是使用点对齐的表示方法,即在世界坐标系中初始化一组3D查询点,然后将多视角图像信息聚合到这些点上。这种方法能够显式地建立跨视角的一致性,避免了像素对齐方法中常见的不一致问题。同时,引入场景图来显式地建模动态实例,并利用3D边界框进行运动传播,从而实现时间上连贯的动态场景表示。

技术框架:PointForward的整体框架包括以下几个主要模块:1) 3D查询点初始化:在世界坐标系中初始化一组稀疏的3D查询点。2) 多视角特征提取:从多个视角的图像中提取特征。3) 时空特征融合:将多视角图像特征融合到3D查询点上,实现跨视角信息聚合。4) 场景图构建:利用3D边界框检测动态实例,并构建场景图来表示它们之间的关系。5) 动态场景重建:基于场景图和融合后的特征,重建动态场景。

关键创新:PointForward最重要的创新点在于其点对齐的表示方法和场景图的引入。点对齐表示能够显式地建立跨视角的一致性,避免了像素对齐方法中的不一致问题。场景图能够有效地组织动态实例,并实现实例级别的运动传播,从而提高动态场景重建的质量。与现有方法相比,PointForward能够更好地处理多视角不一致性和动态场景建模问题。

关键设计:PointForward的关键设计包括:1) 3D查询点的初始化策略:如何选择合适的3D查询点,以保证场景的覆盖率和重建质量。2) 时空特征融合方法:如何有效地融合多视角图像特征,并将其聚合到3D查询点上。3) 场景图的构建方法:如何利用3D边界框检测动态实例,并构建能够准确表示它们之间关系的场景图。4) 损失函数的设计:如何设计合适的损失函数,以优化重建结果,并保证跨视角一致性和时间连贯性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PointForward在大型驾驶基准测试中取得了state-of-the-art的性能。实验结果表明,PointForward能够显著减少多视角不一致性和分层伪影,并提高动态场景重建的质量。具体的性能数据和对比基线将在论文发表后公开。

🎯 应用场景

PointForward在自动驾驶领域具有广泛的应用前景,可用于高精度地图构建、环境感知、运动规划和仿真测试等。通过提供更准确和连贯的驾驶场景重建,PointForward能够提高自动驾驶系统的安全性和可靠性,并加速自动驾驶技术的商业化落地。此外,该技术还可以应用于虚拟现实、增强现实等领域,为用户提供更逼真的沉浸式体验。

📄 摘要(原文)

High-fidelity reconstruction of driving scenes is crucial for autonomous driving. While recent feedforward 3D Gaussian Splatting (3DGS) methods enable fast reconstruction, their per-pixel Gaussian prediction paradigm often suffers from multi-view inconsistency and layering artifacts. Moreover, existing methods often model dynamic instances via dense flow prediction, which lacks explicit cross-view correspondence and instance-level consistency. In this paper, we propose PointForward, a feedforward driving reconstruction framework through point-aligned representations. Unlike pixel-aligned methods, we initialize sparse 3D queries in world space and aggregate multi-view image information via spatial-temporal fusion onto these queries, enforcing explicit cross-view consistency in a single feedforward pass. To handle scene dynamics, we introduce scene graphs that explicitly organize moving instances during reconstruction. By leveraging 3D bounding boxes, our method enables instance-level motion propagation and temporally consistent dynamic representations. Extensive experiments demonstrate that PointForward achieves state-of-the-art performance on large-scale driving benchmarks. The code will be available upon the publication of the paper.