VISC: mmWave Radar Scene Flow Estimation using Pervasive Visual-Inertial Supervision

📄 arXiv: 2507.03938v1 📥 PDF

作者: Kezhong Liu, Yiwen Zhou, Mozi Chen, Jianhua He, Jingao Xu, Zheng Yang, Chris Xiaoxuan Lu, Shengkai Zhang

分类: cs.CV, cs.RO

发布日期: 2025-07-05


💡 一句话要点

提出基于视觉惯性数据监督的毫米波雷达场景流估计框架,解决数据稀缺问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 毫米波雷达 场景流估计 视觉惯性 自监督学习 传感器融合

📋 核心要点

  1. 现有毫米波雷达场景流估计依赖昂贵的激光雷达数据,限制了其应用范围和数据获取。
  2. 该方法融合运动学模型和神经网络学习,提出无漂移刚性变换估计器,为雷达提供强监督。
  3. 通过光学-毫米波监督提取模块,利用视觉惯性数据学习动态场景流,提升估计精度。

📝 摘要(中文)

本文提出了一种毫米波雷达场景流估计框架,该框架由广泛使用的视觉惯性(VI)传感器套件的数据进行监督,从而可以使用来自智能车辆的众包训练数据。目前毫米波雷达的场景流估计方法通常由3D激光雷达的密集点云进行监督,而3D激光雷达价格昂贵,在智能车辆中并不普及。虽然VI数据更容易获取,但仅视觉图像无法捕捉移动物体的3D运动,因此难以监督其场景流。此外,VI刚性变换的时序漂移也会降低静态点的场景流估计性能。为了解决这些挑战,我们提出了一种无漂移的刚性变换估计器,它融合了基于运动学模型的自运动和神经网络学习的结果。它为基于雷达的刚性变换提供了强大的监督信号,并推断静态点的场景流。然后,我们开发了一个光学-毫米波监督提取模块,该模块提取雷达刚性变换和场景流的监督信号。它通过学习具有光学和毫米波雷达测量联合约束的动态点的场景流来加强监督。大量的实验表明,在烟雾环境中,我们的方法甚至优于使用昂贵激光雷达的最新方法。

🔬 方法详解

问题定义:毫米波雷达场景流估计旨在预测场景中每个点在三维空间中的运动矢量。现有方法主要依赖于昂贵的3D激光雷达提供精确的监督信号,这限制了其在低成本智能车辆上的应用。此外,视觉惯性里程计(VIO)虽然成本较低,但其估计的刚性变换存在时序漂移,影响静态点的场景流估计精度,且视觉信息难以捕捉动态物体的三维运动。

核心思路:本文的核心思路是利用更易获取的视觉惯性(VI)数据作为毫米波雷达场景流估计的监督信号,从而降低对昂贵激光雷达的依赖。为了解决VI数据存在的漂移问题和视觉信息对动态物体运动捕捉的不足,该方法提出了一种无漂移的刚性变换估计器和光学-毫米波监督提取模块,从而实现更准确的场景流估计。

技术框架:该框架主要包含两个核心模块:1) 无漂移刚性变换估计器:该模块融合了基于运动学模型的自运动估计和神经网络学习的结果,用于估计车辆自身的运动,并消除VI数据中的漂移。2) 光学-毫米波监督提取模块:该模块利用视觉信息和毫米波雷达数据之间的对应关系,提取雷达刚性变换和场景流的监督信号,特别是针对动态物体,通过联合约束学习其场景流。

关键创新:该方法最重要的创新点在于利用廉价的视觉惯性传感器数据,通过提出的无漂移刚性变换估计器和光学-毫米波监督提取模块,实现了对毫米波雷达场景流的有效监督。这与传统方法依赖昂贵激光雷达数据进行监督形成了本质区别,降低了成本,并提高了数据获取的便利性。

关键设计:在无漂移刚性变换估计器中,具体融合方法未知,但提及融合了运动学模型和神经网络学习结果。光学-毫米波监督提取模块的具体网络结构和损失函数未知,但强调了利用光学和毫米波雷达测量数据的联合约束来学习动态点的场景流。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在烟雾等恶劣环境下,场景流估计性能甚至优于使用昂贵激光雷达的现有方法。这表明该方法具有很强的鲁棒性和环境适应性,能够有效应对复杂场景下的挑战,具体性能提升数据未知。

🎯 应用场景

该研究成果可广泛应用于自动驾驶、机器人导航、智能交通等领域。通过降低对昂贵激光雷达的依赖,使得低成本的智能车辆也能实现高精度的场景理解和运动预测,从而提高驾驶安全性、降低事故率,并促进自动驾驶技术的普及。

📄 摘要(原文)

This work proposes a mmWave radar's scene flow estimation framework supervised by data from a widespread visual-inertial (VI) sensor suite, allowing crowdsourced training data from smart vehicles. Current scene flow estimation methods for mmWave radar are typically supervised by dense point clouds from 3D LiDARs, which are expensive and not widely available in smart vehicles. While VI data are more accessible, visual images alone cannot capture the 3D motions of moving objects, making it difficult to supervise their scene flow. Moreover, the temporal drift of VI rigid transformation also degenerates the scene flow estimation of static points. To address these challenges, we propose a drift-free rigid transformation estimator that fuses kinematic model-based ego-motions with neural network-learned results. It provides strong supervision signals to radar-based rigid transformation and infers the scene flow of static points. Then, we develop an optical-mmWave supervision extraction module that extracts the supervision signals of radar rigid transformation and scene flow. It strengthens the supervision by learning the scene flow of dynamic points with the joint constraints of optical and mmWave radar measurements. Extensive experiments demonstrate that, in smoke-filled environments, our method even outperforms state-of-the-art (SOTA) approaches using costly LiDARs.