FRUC: Feedforward Dynamic Scene Reconstruction from Uncalibrated Collaborative Driving Views

📄 arXiv: 2605.29997v1 📥 PDF

作者: Yihang Tao, Yu Guo, Zhengru Fang, Haonan An, Yuguang Fang

分类: cs.CV

发布日期: 2026-05-28


💡 一句话要点

FRUC:基于无标定协同驾驶视角的动态场景前馈重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 协同驾驶 动态场景重建 3D高斯溅射 Transformer网络 遮挡推理

📋 核心要点

  1. 现有方法依赖精确标定和单场景优化,限制了多智能体动态场景重建的应用。
  2. FRUC通过视觉Transformer骨干网络实现免标定的一次性推理,并引入因果遮挡场指导跨智能体融合。
  3. 实验表明,FRUC在真实数据集上显著提升了渲染质量和效率,成为该领域的新SOTA。

📝 摘要(中文)

本文提出FRUC,一个基于前馈3D高斯溅射的框架,用于从无标定的协同驾驶视角进行动态场景重建。现有的多智能体重建框架通常受限于严格的前提条件,需要精确的空间标定和缓慢的单场景优化。本文重新思考了这项任务,将分布式多车辆网络概念化为一个时空非结构化的以自我为中心的多相机系统,其核心挑战在于通过协作增强以自我为中心的遮挡几何体,同时不降低自我精确观察到的可见几何体的质量,并保持重建效率。为了高效重建,FRUC建立在视觉接地的几何Transformer骨干网络之上,从而能够从灵活数量的多车辆视角进行一次性、免标定的推理。为了在未标定的跨智能体不对齐情况下实现非破坏性的几何补充,FRUC首先引入了一个以自我为中心因果遮挡场,通过建模智能体间的时空相关性,显式地推导出遮挡演化作为潜在先验。在这些遮挡先验的指导下,它进一步将跨智能体集成公式化为通过零初始化注入的确定性残差去噪过程,将具有挑战性的跨智能体融合转化为有界的残差学习,以实现鲁棒的协同盲点补全。通过在真实世界的V2XReal和UrbanIng-V2X数据集上的大量评估,FRUC被证明是动态协同驾驶环境场景重建的最新技术,在渲染质量和效率方面均显著优于现有方法。

🔬 方法详解

问题定义:现有方法在多智能体动态场景重建中,需要精确的相机标定和耗时的单场景优化,这限制了其在实际协同驾驶环境中的应用。由于车辆间的相对位姿未知且随时间变化,如何有效地融合来自不同车辆的视角信息,同时避免引入误差,是一个关键挑战。

核心思路:FRUC的核心思路是将多车辆网络视为一个以自我为中心的时空非结构化多相机系统。通过学习智能体间的时空相关性,预测遮挡演化,并将其作为先验知识指导跨智能体的信息融合。采用残差学习的方式,将跨智能体的信息作为对自我视角信息的补充,避免破坏自身视角的准确性。

技术框架:FRUC的整体框架包含以下几个主要模块:1) 视觉接地的几何Transformer骨干网络:用于提取多视角图像的几何特征。2) 以自我为中心的因果遮挡场:用于建模智能体间的时空相关性,预测遮挡演化。3) 跨智能体融合模块:基于遮挡先验,将其他智能体的视角信息融合到自我视角中,实现盲点补全。整个框架采用前馈方式,实现高效的场景重建。

关键创新:FRUC的关键创新在于:1) 提出了以自我为中心的因果遮挡场,显式地建模了智能体间的遮挡关系,并将其作为先验知识指导跨智能体的信息融合。2) 将跨智能体融合转化为残差学习问题,避免了直接融合可能引入的误差,提高了重建的鲁棒性。3) 采用前馈架构,实现了高效的场景重建,无需耗时的单场景优化。

关键设计:FRUC的关键设计包括:1) 使用Transformer网络建模智能体间的时空相关性,学习遮挡演化。2) 采用零初始化注入的方式,将跨智能体的信息作为残差添加到自我视角中。3) 设计了相应的损失函数,用于优化遮挡场和重建结果。具体参数设置和网络结构细节未在摘要中详细描述,需要参考论文全文。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FRUC在V2XReal和UrbanIng-V2X数据集上进行了广泛的评估,实验结果表明,FRUC在渲染质量和效率方面均显著优于现有方法。具体性能数据和提升幅度未在摘要中给出,需要在论文中查找。

🎯 应用场景

FRUC在自动驾驶、智能交通等领域具有广泛的应用前景。它可以用于提高自动驾驶车辆的环境感知能力,尤其是在遮挡严重的情况下。通过与其他车辆共享信息,FRUC可以帮助自动驾驶车辆更好地理解周围环境,从而提高行驶安全性。此外,FRUC还可以应用于城市规划、虚拟现实等领域,用于重建动态的城市环境。

📄 摘要(原文)

We present FRUC, a feed-forward 3D Gaussian splatting framework for dynamic scene reconstruction from uncalibrated collaborative driving views. Existing multi-agent reconstruction frameworks are often hindered by rigid prerequisites, demanding precise spatial calibration and slow per-scene optimization. In this paper, we rethink this task by conceptualizing a distributed multi-vehicle network as a spatio-temporally unstructured ego-centric multi-camera system, where the core challenge lies in enhancing ego-centric occluded geometry through collaboration without degrading the ego's accurately observed visible geometry, while preserving reconstruction efficiency. For efficient reconstruction, FRUC is built upon a visual grounded geometric Transformer backbone to enable one-shot, calibration-free inference from a flexible number of multi-vehicle views. To achieve non-destructive geometric supplementation under uncalibrated cross-agent misalignment, FRUC first introduces an ego-centric causal occlusion field that explicitly derives occlusion evolution as latent priors by modeling agent-wise spatio-temporal correlations. Guided by these occlusion priors, it further formulates cross-agent integration as a deterministic residual denoising process via zero-initialized injection, turning challenging cross-agent fusion into bounded residual learning for robust collaborative blind-spot completion. Through extensive evaluations on the real-world V2XReal and UrbanIng-V2X datasets, FRUC is shown to be a new state-of-the-art for the scene reconstruction of dynamic collaborative driving environments, significantly outperforming existing methods in both rendering quality and efficiency.