RadarGen: Automotive Radar Point Cloud Generation from Cameras

📄 arXiv: 2512.17897v1 📥 PDF

作者: Tomer Borreda, Fangqiang Ding, Sanja Fidler, Shengyu Huang, Or Litany

分类: cs.CV, cs.AI, cs.LG, cs.RO

发布日期: 2025-12-19

备注: Project page: https://radargen.github.io/


💡 一句话要点

RadarGen:提出一种基于扩散模型的相机图像生成汽车雷达点云方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 雷达点云生成 扩散模型 多模态仿真 自动驾驶 鸟瞰图 深度估计 语义分割

📋 核心要点

  1. 现有方法难以从视觉数据生成逼真的雷达点云,限制了多模态自动驾驶仿真的发展。
  2. RadarGen利用扩散模型,结合图像信息和预训练模型的深度、语义等线索,生成与视觉场景对齐的雷达点云。
  3. 实验表明,RadarGen生成的雷达点云更接近真实数据分布,提升了感知模型在合成数据上的训练效果。

📝 摘要(中文)

本文提出RadarGen,一个用于从多视角相机图像合成逼真汽车雷达点云的扩散模型。RadarGen通过在鸟瞰图(BEV)形式中表示雷达测量结果,将高效的图像潜在扩散适应于雷达领域,该形式编码空间结构以及雷达横截面(RCS)和多普勒属性。一个轻量级的恢复步骤从生成的地图中重建点云。为了更好地使生成与视觉场景对齐,RadarGen结合了从预训练基础模型中提取的BEV对齐的深度、语义和运动线索,这些线索引导随机生成过程朝着物理上合理的雷达模式发展。原则上,以图像为条件使得该方法与现有的视觉数据集和仿真框架广泛兼容,为跨传感模态的统一生成式仿真提供了一个可扩展的方向。在大型驾驶数据上的评估表明,RadarGen捕获了特征雷达测量分布,并缩小了与在真实数据上训练的感知模型之间的差距,标志着朝着跨传感模态的统一生成式仿真迈出了一步。

🔬 方法详解

问题定义:现有方法在从视觉数据生成逼真雷达点云方面存在挑战。雷达数据具有稀疏性、噪声大等特点,直接从图像生成高质量雷达点云非常困难。此外,如何保证生成的雷达点云与视觉场景在物理上的一致性也是一个难题。

核心思路:RadarGen的核心思路是利用扩散模型强大的生成能力,并结合从预训练视觉模型中提取的深度、语义和运动信息,引导雷达点云的生成过程。通过将雷达数据表示为鸟瞰图(BEV)形式,可以更好地捕捉雷达数据的空间结构和属性信息。

技术框架:RadarGen的整体框架包括以下几个主要模块:1) 多视角图像输入;2) 利用预训练模型提取BEV对齐的深度、语义和运动特征;3) 基于扩散模型的雷达点云生成器,以图像特征和预训练模型提取的特征为条件;4) 轻量级的点云重建模块,将生成的BEV雷达图转换为点云。

关键创新:RadarGen的关键创新在于:1) 将图像潜在扩散模型应用于雷达点云生成任务;2) 引入BEV对齐的深度、语义和运动线索,以保证生成雷达点云与视觉场景的一致性;3) 提出了一种轻量级的点云重建方法,将生成的BEV雷达图转换为点云。与现有方法相比,RadarGen能够生成更逼真、更符合物理规律的雷达点云。

关键设计:RadarGen使用U-Net作为扩散模型的主干网络,并采用DDPM作为扩散过程。损失函数包括扩散模型的标准损失函数,以及用于鼓励生成的雷达点云与视觉场景对齐的辅助损失函数。BEV雷达图的分辨率和点云重建模块的参数是需要仔细调整的关键设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RadarGen能够生成更逼真的雷达点云,缩小了与真实雷达数据之间的差距。使用RadarGen生成的合成数据训练的感知模型,在真实数据上的性能得到了显著提升,验证了该方法的有效性。具体而言,在目标检测任务上,使用RadarGen合成数据训练的模型,其性能接近甚至超过了使用传统方法合成数据训练的模型。

🎯 应用场景

RadarGen可用于自动驾驶仿真环境的构建,生成更逼真的多模态传感器数据,从而提高自动驾驶算法的鲁棒性和安全性。此外,该方法还可以应用于雷达数据增强、雷达传感器设计等领域,具有广泛的应用前景。

📄 摘要(原文)

We present RadarGen, a diffusion model for synthesizing realistic automotive radar point clouds from multi-view camera imagery. RadarGen adapts efficient image-latent diffusion to the radar domain by representing radar measurements in bird's-eye-view form that encodes spatial structure together with radar cross section (RCS) and Doppler attributes. A lightweight recovery step reconstructs point clouds from the generated maps. To better align generation with the visual scene, RadarGen incorporates BEV-aligned depth, semantic, and motion cues extracted from pretrained foundation models, which guide the stochastic generation process toward physically plausible radar patterns. Conditioning on images makes the approach broadly compatible, in principle, with existing visual datasets and simulation frameworks, offering a scalable direction for multimodal generative simulation. Evaluations on large-scale driving data show that RadarGen captures characteristic radar measurement distributions and reduces the gap to perception models trained on real data, marking a step toward unified generative simulation across sensing modalities.