Sensor2Sensor: Cross-Embodiment Sensor Conversion for Autonomous Driving

📄 arXiv: 2605.22809v1 📥 PDF

作者: Jiahao Wang, Bo Sun, Yijing Bai, Vincent Casser, Songyou Peng, Zehao Zhu, Meng-Li Shih, Xander Masotto, Shih-Yang Su, Kanaad V Parvate, Tiancheng Ge, Linn Bieske, Dragomir Anguelov, Mingxing Tan, Chiyu Max Jiang

分类: cs.CV

发布日期: 2026-05-21

备注: Accepted by CVPR 2026


💡 一句话要点

提出Sensor2Sensor,将行车记录仪视频转换为自动驾驶所需的多模态传感器数据。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 自动驾驶 传感器数据生成 多模态转换 扩散模型 4D高斯溅射 行车记录仪 数据增强

📋 核心要点

  1. 自动驾驶系统训练依赖大规模数据集,但现有数据集在规模、多样性和长尾场景覆盖方面存在不足。
  2. Sensor2Sensor通过生成建模,将易获取的行车记录仪视频转换为自动驾驶系统所需的多模态传感器数据。
  3. 该方法利用4D高斯溅射和扩散模型,实现了从非结构化视频到结构化传感器数据的转换,并进行了定量评估。

📝 摘要(中文)

自动驾驶系统(ADS)的稳健训练和验证需要大规模、多样化的数据集。自动驾驶车队收集的专有数据虽然保真度高,但在规模、传感器配置的多样性以及地理和长尾行为覆盖方面受到限制。相比之下,来自行车记录仪等来源的真实场景数据提供了巨大的规模和多样性,捕捉了关键的长尾场景和新环境。然而,这种非结构化的真实场景视频数据与ADS期望的用于验证和训练的结构化、多模态传感器输入不兼容。为了弥合这一数据差距,我们提出Sensor2Sensor,一种新颖的生成建模范式,将真实场景的单目行车记录仪视频转换为高保真、多模态传感器套件(AV日志),包括多视角相机图像和激光雷达点云。核心挑战是缺乏配对训练数据。我们通过4D高斯溅射(4DGS)重建和新视角渲染将真实的AV日志转换为行车记录仪风格的视频来解决这个问题。然后,Sensor2Sensor利用扩散架构执行生成转换。我们对生成的传感器数据的保真度和真实感进行了全面的定量评估。我们通过将具有挑战性的真实场景互联网和行车记录仪素材转换为逼真的多模态数据格式,进一步释放了用于AV开发的巨大外部数据源,证明了Sensor2Sensor的实际效用。

🔬 方法详解

问题定义:自动驾驶系统需要大量多模态传感器数据进行训练和验证,但现有数据集规模有限,难以覆盖各种场景。真实场景的行车记录仪视频数据量巨大,但缺乏结构化信息,无法直接用于自动驾驶系统的训练。因此,需要一种方法将非结构化的行车记录仪视频转换为结构化的多模态传感器数据。

核心思路:Sensor2Sensor的核心思路是利用生成模型,学习从行车记录仪视频到多模态传感器数据的映射关系。为了解决缺乏配对训练数据的问题,该方法首先将真实的自动驾驶车辆数据转换为行车记录仪风格的视频,从而构建伪配对数据集。然后,利用扩散模型学习从行车记录仪视频到多模态传感器数据的生成过程。

技术框架:Sensor2Sensor的整体框架包括两个主要阶段:1) 数据转换阶段:利用4D高斯溅射(4DGS)重建和新视角渲染,将真实的自动驾驶车辆数据(包括多视角相机图像和激光雷达点云)转换为行车记录仪风格的视频。2) 生成转换阶段:利用扩散模型,学习从行车记录仪视频到多视角相机图像和激光雷达点云的生成过程。该阶段以行车记录仪视频作为输入,生成对应的多模态传感器数据。

关键创新:Sensor2Sensor的关键创新在于:1) 提出了一种将非结构化视频数据转换为结构化多模态传感器数据的新方法,解决了自动驾驶数据稀缺的问题。2) 利用4D高斯溅射和新视角渲染技术,构建了伪配对训练数据集,克服了缺乏配对数据的挑战。3) 采用扩散模型进行生成转换,提高了生成数据的质量和真实感。

关键设计:在数据转换阶段,4D高斯溅射用于重建场景的几何和外观信息,并生成任意视角的图像。在生成转换阶段,扩散模型采用U-Net结构,以行车记录仪视频作为条件输入,逐步生成多视角相机图像和激光雷达点云。损失函数包括图像重建损失、点云重建损失和对抗损失,以提高生成数据的保真度和真实感。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Sensor2Sensor生成的传感器数据具有较高的保真度和真实感。通过定量评估,生成的图像和点云在各项指标上都取得了良好的性能。此外,将Sensor2Sensor生成的传感器数据用于自动驾驶模型的训练,能够显著提高模型在真实场景中的性能。

🎯 应用场景

Sensor2Sensor可广泛应用于自动驾驶系统的训练和验证,尤其是在数据稀缺的长尾场景和新环境中。该方法能够利用海量的行车记录仪视频数据,扩充自动驾驶数据集,提高自动驾驶系统的鲁棒性和泛化能力。此外,该方法还可以用于自动驾驶仿真环境的构建,降低开发成本。

📄 摘要(原文)

Robust training and validation of Autonomous Driving Systems (ADS) require massive, diverse datasets. Proprietary data collected by Autonomous Vehicle (AV) fleets, while high-fidelity, are limited in scale, diversity of sensor configurations, as well as geographic and long-tail-behavioral coverage. In contrast, in-the-wild data from sources like dashcams offers immense scale and diversity, capturing critical long-tail scenarios and novel environments. However, this unstructured, in-the-wild video data is incompatible with ADS expecting structured, multi-modal sensor inputs for validation and training. To bridge this data gap, we propose Sensor2Sensor, a novel generative modeling paradigm that translates in-the-wild monocular dashcam videos into a high-fidelity, multi-modal sensor suite (AV logs) comprising multi-view camera images and LiDAR point clouds. A core challenge is the lack of paired training data. We address this by converting real AV logs into dashcam-style videos via 4D Gaussian Splatting (4DGS) reconstruction and novel-view rendering. Sensor2Sensor then utilizes a diffusion architecture to perform the generative conversion. We perform comprehensive quantitative evaluations on the fidelity and realism of the generated sensor data. We demonstrate Sensor2Sensor's practical utility by converting challenging in-the-wild internet and dashcam footage into realistic, multi-modal data formats, further unlocking vast external data sources for AV development.