StreetForward: Perceiving Dynamic Street with Feedforward Causal Attention

作者: Zhongrui Yu, Zhao Wang, Yijia Xie, Yida Wang, Xueyang Zhang, Yifei Zhan, Kun Zhan

分类: cs.CV

发布日期: 2026-03-20

💡 一句话要点

StreetForward：提出基于前馈因果注意力机制的动态街景快速重建方法

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 动态街景重建 前馈网络 因果注意力 3D高斯溅射 自动驾驶 新视角合成 深度估计

📋 核心要点

现有自动驾驶场景重建方法依赖耗时的单场景优化，限制了大规模驾驶数据的有效利用。
StreetForward提出一种前馈框架，利用时序掩码注意力模块捕获动态运动信息，并统一表示静态和动态内容。
实验表明，StreetForward在Waymo数据集上优于现有方法，并在CARLA等数据集上具有良好的泛化能力。

📝 摘要（中文）

本文提出StreetForward，一个无需位姿和追踪器的前馈框架，用于动态街景重建。该框架通过快速场景重建，能够高效地利用大规模驾驶数据集进行闭环仿真和其他下游任务，避免了耗时的单场景优化。在Visual Geometry Grounded Transformer (VGGT)的交替注意力机制基础上，我们提出了一个简单而有效的时序掩码注意力模块，用于捕获图像序列中的动态运动信息，并生成运动感知的潜在表示。静态内容和动态实例均使用3D高斯溅射进行统一表示，并通过具有时空一致性的跨帧渲染进行联合优化，从而使模型能够推断每个像素的速度，并在新的位姿和时间生成高保真的新视角。我们在Waymo开放数据集上训练和评估了我们的模型，结果表明，与现有方法相比，我们的模型在新的视角合成和深度估计方面表现出卓越的性能。此外，在CARLA和其他数据集上的零样本推理验证了我们方法的泛化能力。

🔬 方法详解

问题定义：现有动态街景重建方法通常需要耗时的单场景优化，难以高效利用大规模驾驶数据集。这些方法在处理动态物体时，往往需要复杂的位姿估计和目标跟踪，增加了计算负担和误差累积。因此，如何实现快速、高效且无需位姿和追踪器的动态街景重建是一个关键问题。

核心思路：StreetForward的核心思路是利用前馈网络直接从图像序列中重建动态街景，避免了耗时的优化过程。通过引入时序掩码注意力机制，模型能够有效地捕获图像序列中的动态运动信息，从而更好地理解和重建动态场景。同时，使用3D高斯溅射统一表示静态和动态内容，简化了重建过程。

技术框架：StreetForward框架主要包含以下几个模块：1) 特征提取模块：从输入图像序列中提取视觉特征。2) 时序掩码注意力模块：利用交替注意力机制和时序掩码，捕获动态运动信息，生成运动感知的潜在表示。3) 3D高斯溅射表示模块：将静态内容和动态实例统一表示为3D高斯溅射。4) 跨帧渲染模块：通过具有时空一致性的跨帧渲染，联合优化静态和动态内容的表示。5) 速度估计模块：推断每个像素的速度信息。

关键创新：StreetForward的关键创新在于提出了时序掩码注意力模块，该模块能够有效地捕获图像序列中的动态运动信息，从而实现对动态场景的准确重建。此外，该框架采用前馈方式，避免了耗时的单场景优化，大大提高了重建效率。统一的3D高斯溅射表示简化了静态和动态内容的建模。

关键设计：时序掩码注意力模块的设计是关键。它基于VGGT的交替注意力机制，并引入了时序掩码，以区分不同时间步的特征。损失函数包括新视角合成损失、深度估计损失和速度一致性损失，用于约束模型的学习。3D高斯溅射的参数包括位置、尺度、颜色和透明度等，这些参数通过优化进行调整。

🖼️ 关键图片

📊 实验亮点

StreetForward在Waymo开放数据集上取得了显著的性能提升。在新的视角合成方面，该方法优于现有方法，实现了更高的图像质量和更低的重建误差。在深度估计方面，StreetForward也表现出更高的精度。此外，在CARLA和其他数据集上的零样本推理验证了该方法的泛化能力，表明其可以应用于不同的场景和数据集。

🎯 应用场景

StreetForward具有广泛的应用前景，包括自动驾驶仿真、虚拟现实、增强现实和机器人导航等领域。通过快速重建动态街景，可以为自动驾驶车辆提供更真实的训练环境，提高其在复杂场景中的感知和决策能力。此外，该技术还可以用于创建沉浸式的虚拟现实体验，或为机器人提供更准确的环境地图。

📄 摘要（原文）

Feedforward reconstruction is crucial for autonomous driving applications, where rapid scene reconstruction enables efficient utilization of large-scale driving datasets in closed-loop simulation and other downstream tasks, eliminating the need for time-consuming per-scene optimization. We present StreetForward, a pose-free and tracker-free feedforward framework for dynamic street reconstruction. Building upon the alternating attention mechanism from Visual Geometry Grounded Transformer (VGGT), we propose a simple yet effective temporal mask attention module that captures dynamic motion information from image sequences and produces motion-aware latent representations. Static content and dynamic instances are represented uniformly with 3D Gaussian Splatting, and are optimized jointly by cross-frame rendering with spatio-temporal consistency, allowing the model to infer per-pixel velocities and produce high-fidelity novel views at new poses and times. We train and evaluate our model on the Waymo Open Dataset, demonstrating superior performance on novel view synthesis and depth estimation compared to existing methods. Furthermore, zero-shot inference on CARLA and other datasets validates the generalization capability of our approach. More visualizations are available on our project page: https://streetforward.github.io.

StreetForward: Perceiving Dynamic Street with Feedforward Causal Attention

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理