Effective Multi-sensor Conditioning for Street-view Novel-view Synthesis
作者: Zhengfei Kuang, Adam Sun, Liyuan Zhu, Tong Wu, Shengqu Cai, Jonathan Tremblay, Iro Armeni, Ehsan Adeli, Lior Yariv, Gordon Wetzstein
分类: cs.CV, cs.GR
发布日期: 2026-06-01
💡 一句话要点
StreetNVS:提出一种有效融合多传感器信息的街景新视角合成方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 新视角合成 多传感器融合 视频扩散模型 街景 自动驾驶
📋 核心要点
- 现有街景新视角合成方法未能充分利用车载多传感器信息,导致在目标轨迹偏离原始路径时性能下降。
- StreetNVS通过参考增强相机注意力模块,联合融合稀疏激光雷达、环视图像和相机姿态信息,实现更鲁棒的新视角合成。
- StreetNVS在Waymo数据集上显著优于现有方法,即使在稀疏激光雷达条件下也能媲美使用密集点云的方法。
📝 摘要(中文)
现代车辆平台配备了丰富的传感器套件,包括激光雷达、校准的多相机系统和精确的自运动估计,原则上为从新视角重新渲染驾驶场景提供了强大的信号。越来越多的研究利用视频扩散模型来完成这项任务,利用其生成先验知识从稀疏的车辆观测中合成合理的新视角。然而,在实践中,现有方法仅利用了这些信号的一小部分,并且其质量往往随着目标轨迹偏离记录的驾驶路径而下降。我们认为这本质上是一个多传感器融合问题:稀疏的激光雷达重投影提供了准确但不完整的度量几何信息,环视参考图像提供了密集的表观信息但没有度量深度,而相机姿态将两者联系在一起。我们引入了StreetNVS,这是一个视频扩散框架,它通过基于相对射线级位置编码的参考增强相机注意力模块,联合地以所有三个信号为条件。我们开发了一种两阶段课程训练策略,逐渐使模型暴露于越来越稀疏的激光雷达数据中。在Waymo开放数据集上,StreetNVS在稀疏激光雷达条件下显著优于最先进的基线方法,并且可以媲美依赖于10-100倍更密集点云的方法。我们进一步展示了沿着极端轨迹外路径(例如,高度变化、车道偏移、后拉和旋转)合成连贯视频的能力。
🔬 方法详解
问题定义:论文旨在解决街景新视角合成问题,即给定车载多传感器数据(包括稀疏激光雷达点云、环视图像和相机姿态),合成从任意新视角观察到的场景图像。现有方法通常无法有效融合这些异构数据源,尤其是在目标视角偏离原始轨迹时,合成质量会显著下降。现有方法对激光雷达点云的密度依赖性较高,无法充分利用图像提供的表观信息。
核心思路:论文的核心思路是将街景新视角合成问题视为一个多传感器融合问题,并设计一个能够有效融合激光雷达、图像和相机姿态信息的框架。通过联合利用这三种信号,模型可以更好地理解场景的几何结构和表观信息,从而合成更准确、更逼真的新视角图像。核心在于设计一种注意力机制,能够将不同传感器的数据关联起来。
技术框架:StreetNVS是一个基于视频扩散模型的框架,包含以下主要模块:1) 多传感器数据编码器:用于提取激光雷达点云、环视图像和相机姿态的特征表示。2) 参考增强相机注意力模块:这是StreetNVS的核心模块,它基于相对射线级位置编码,将不同视角的图像特征与激光雷达特征进行融合。3) 视频扩散模型:用于生成最终的新视角图像。框架采用两阶段课程训练策略,首先使用密集激光雷达数据进行训练,然后逐渐减少激光雷达数据的密度。
关键创新:StreetNVS的关键创新在于参考增强相机注意力模块,它能够有效地融合来自不同传感器的信息。该模块基于相对射线级位置编码,将不同视角的图像特征与激光雷达特征进行对齐,从而实现更准确的几何和表观信息融合。此外,两阶段课程训练策略也提高了模型在稀疏激光雷达条件下的鲁棒性。
关键设计:参考增强相机注意力模块使用相对射线级位置编码来表示不同视角之间的几何关系。损失函数包括L1损失、感知损失和对抗损失,以提高合成图像的质量和真实感。课程学习策略从密集到稀疏的激光雷达数据训练,提升模型在数据缺失情况下的泛化能力。网络结构基于U-Net,并针对视频数据进行了优化。
🖼️ 关键图片
📊 实验亮点
StreetNVS在Waymo开放数据集上取得了显著的性能提升。在稀疏激光雷达条件下,StreetNVS的性能优于现有最先进的基线方法,并且可以媲美依赖于10-100倍更密集点云的方法。此外,StreetNVS还能够合成沿着极端轨迹外路径(例如,高度变化、车道偏移、后拉和旋转)的连贯视频。
🎯 应用场景
StreetNVS在自动驾驶、虚拟现实、增强现实和城市建模等领域具有广泛的应用前景。它可以用于生成任意视角的街景图像,从而为自动驾驶车辆提供更全面的环境感知,为虚拟现实和增强现实应用提供更逼真的场景体验,并为城市建模提供更准确的数据。
📄 摘要(原文)
Modern vehicle platforms are equipped with a rich sensor suite, including LiDAR, calibrated multi-camera rigs, and accurate ego-motion, that in principle offers strong signal for re-rendering a driving scene from novel viewpoints. A growing line of recent work leverages video diffusion models for this task, using their generative priors to synthesize plausible novel views from sparse vehicle observations. In practice, however, existing methods exploit only a fragment of this signal, and their quality tends to degrade as the target trajectory departs from the recorded driving path. We argue that this is fundamentally a multi-sensor fusion problem: sparse LiDAR reprojections supply accurate but incomplete metric geometry, surround-view reference imagery supplies dense appearance but no metric depth, and camera poses tie the two together across views. We introduce StreetNVS, a video diffusion framework that jointly conditions on all three signals through a Reference-Enhanced Camera Attention module based on a relative ray-level positional encoding. We develop a two-stage curriculum training strategy that gradually exposes the model to increasingly sparse LiDAR. On the Waymo Open Dataset, StreetNVS substantially outperforms state-of-the-art baselines under sparse LiDAR conditioning, matches methods that rely on 10-100 times denser point clouds. We further show capabilities of synthesizing coherent videos along extreme out-of-trajectory paths such as elevation, lane-shift, pullback, and rotation. Our website: https://streetnvs.github.io