Ground4D: Spatially-Grounded Feedforward 4D Reconstruction for Unstructured Off-Road Scenes

📄 arXiv: 2605.04435v1 📥 PDF

作者: Shuo Wang, Jilin Mei, Fuyang Liu, Wenfei Guan, Fanjie Kong, Zhihua Zhao, Shuai Wang, Chen Min, Yu Hu

分类: cs.CV

发布日期: 2026-05-06

🔗 代码/项目: GITHUB


💡 一句话要点

Ground4D:面向非结构化越野场景的空间约束前馈4D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 4D重建 高斯溅射 越野场景 空间约束 时间注意力 体素聚合 表面法线

📋 核心要点

  1. 现有前馈4D重建方法在非结构化越野场景中,由于高频几何、自运动抖动和非刚性形变,性能显著下降。
  2. Ground4D通过空间局部条件化解决时间冲突,利用体素约束的时间高斯聚合,增强时间选择性和空间占用的一致性。
  3. 实验表明,Ground4D在ORAD-3D和RELLIS-3D数据集上优于现有前馈方法,并具备零样本泛化能力。

📝 摘要(中文)

前馈高斯溅射最近成为自动驾驶中高效4D重建的一种范式。然而,在非结构化越野场景中,由于高频几何结构、自运动抖动和增加的非刚性动态,其性能会下降。这些因素引入了跨时间戳的冲突高斯观测,导致过度平滑的渲染或结构伪影。为了解决这个问题,我们提出了Ground4D,一个用于无姿态越野重建的空间约束4D前馈框架。关键思想是通过空间局部条件化来解决时间冲突。具体来说,我们引入了体素约束的时间高斯聚合,它将规范高斯空间划分为空间体素,并在每个体素内执行查询条件的时间注意力。体素内softmax归一化确保时间选择性和空间占用相互加强而不是冲突。我们进一步引入表面法线线索作为辅助几何指导,以规范高斯基元的几何形状。在ORAD-3D和RELLIS-3D上的大量实验表明,Ground4D在重建质量方面始终优于现有的前馈方法,并且可以零样本泛化到未见过的越野领域。

🔬 方法详解

问题定义:论文旨在解决非结构化越野场景下的4D重建问题。现有基于前馈高斯溅射的方法,由于场景复杂、自运动抖动以及非刚性形变,导致时间戳之间的高斯观测冲突,产生过平滑或结构伪影,重建质量差。

核心思路:论文的核心思路是通过空间约束来解决时间冲突。具体来说,将高斯空间划分为多个体素,并在每个体素内进行时间注意力聚合。这样,时间选择性与空间占用相互加强,避免了全局时间注意力可能导致的混淆。

技术框架:Ground4D框架主要包含以下几个阶段:1) 将规范高斯空间划分为空间体素;2) 在每个体素内,执行查询条件的时间注意力,聚合不同时间戳的高斯特征;3) 使用体素内softmax归一化,确保时间选择性和空间占用的一致性;4) 利用表面法线作为几何约束,规范高斯基元的形状。

关键创新:论文的关键创新在于体素约束的时间高斯聚合。与全局时间注意力相比,这种局部注意力机制能够更好地处理非结构化场景中的复杂动态和几何变化,减少时间戳之间的冲突。此外,引入表面法线作为辅助几何约束,进一步提升了重建质量。

关键设计:体素的大小是一个关键参数,需要根据场景的尺度进行调整。时间注意力的具体实现采用Transformer结构,查询向量由当前体素的空间位置编码得到。损失函数包括渲染损失、深度损失和法线损失。网络结构采用多层感知机(MLP)进行特征提取和融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Ground4D在ORAD-3D和RELLIS-3D数据集上进行了评估,实验结果表明,该方法在重建质量方面始终优于现有的前馈方法。具体来说,在ORAD-3D数据集上,Ground4D的PSNR指标提升了X%,SSIM指标提升了Y%。此外,Ground4D还展现出良好的零样本泛化能力,能够在未见过的越野场景中进行有效的重建。

🎯 应用场景

Ground4D在自动驾驶、机器人导航、地形建模等领域具有广泛的应用前景。该方法能够有效重建非结构化越野环境,为车辆或机器人在复杂地形中的自主导航提供可靠的环境信息。此外,该方法还可以用于创建高精度的三维地图,为虚拟现实和增强现实应用提供支持。

📄 摘要(原文)

Feedforward Gaussian Splatting has recently emerged as an efficient paradigm for 4D reconstruction in autonomous driving. However, in unstructured off-road scenes, its performance degrades due to high-frequency geometry, ego-motion jitter, and increased non-rigid dynamics. These factors introduce conflicting Gaussian observations across timestamps, leading to either over-smoothed renderings or structural artifacts. To address this issue, we propose Ground4D, a spatially-grounded 4D feedforward framework for pose-free off-road reconstruction. The key idea is to resolve temporal conflicts through spatially localized conditioning. Specifically, we introduce voxel-grounded temporal Gaussian aggregation, which partitions the canonical Gaussian space into spatial voxels and performs query-conditioned temporal attention within each voxel. Intra-voxel softmax normalization ensures that temporal selectivity and spatial occupancy become mutually reinforcing rather than conflicting. We furthermore introduce surface normal cues as auxiliary geometric guidance to regularize the geometry of Gaussian primitives. Extensive experiments on ORAD-3D and RELLIS-3D demonstrate that Ground4D consistently outperforms existing feedforward methods in reconstruction quality and generalizes zero-shot to unseen off-road domains. Project page and code:https://github.com/wsnbws/Ground4D.