Radar Velocity Transformer: Single-scan Moving Object Segmentation in Noisy Radar Point Clouds

📄 arXiv: 2507.03463v1 📥 PDF

作者: Matthias Zeller, Vardeep S. Sandhu, Benedikt Mersch, Jens Behley, Michael Heidingsfeld, Cyrill Stachniss

分类: cs.CV

发布日期: 2025-07-04

备注: Proc. of the IEEE Intl. Conf. on Robotics & Automation (ICRA)

DOI: 10.1109/ICRA48891.2023.10161152


💡 一句话要点

提出Radar Velocity Transformer,用于在雷达点云中进行单帧移动物体分割。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 雷达点云 移动物体分割 Transformer网络 单帧感知 自动驾驶

📋 核心要点

  1. 现有方法依赖时序数据进行移动物体分割,计算成本高,实时性差,而雷达传感器能直接提供速度信息。
  2. 论文提出Radar Velocity Transformer,将速度信息融入Transformer的各个模块,实现单帧雷达数据的精准分割。
  3. 实验表明,该方法在RadarScenes数据集上优于现有方法,且运行速度高于传感器帧率,满足实时性要求。

📝 摘要(中文)

本文旨在解决自动驾驶车辆安全导航中,对周围移动物体感知的关键问题。针对激光雷达和相机数据需要时序信息才能提取运动信息的局限性,本文提出了一种基于Transformer的雷达速度变换器,用于在稀疏雷达点云中进行单帧移动物体分割。该方法将速度信息融入网络的每个模块,从而精确分割移动和非移动物体,并区分停放车辆和移动车辆。此外,提出了一种基于Transformer的上采样方法,自适应地融合信息,克服了稀疏点云插值的限制。最后,基于RadarScenes数据集创建了一个新的雷达移动物体分割基准,实验结果表明,该网络仅使用单帧雷达数据,就能以高于传感器帧率的速度运行,并获得优越的分割结果。

🔬 方法详解

问题定义:论文旨在解决在嘈杂的雷达点云中进行移动物体分割的问题。现有方法通常依赖于激光雷达或相机,需要积累和处理时间序列数据才能提取运动信息,这限制了实时性。此外,区分停放车辆和移动车辆对于场景理解至关重要,但现有方法难以有效处理。

核心思路:论文的核心思路是利用雷达传感器提供的多普勒速度信息,将其融入到Transformer网络中,实现单帧雷达数据的移动物体分割。通过将速度信息贯穿于网络的各个模块,可以更准确地识别和分割移动物体,而无需依赖时间序列数据。

技术框架:Radar Velocity Transformer的整体架构包括以下几个主要模块:1) 特征提取模块:从雷达点云中提取几何和速度特征。2) Transformer编码器:利用Transformer编码器对提取的特征进行编码,捕捉点云中不同点之间的关系。3) Transformer解码器:使用Transformer解码器进行上采样,恢复点云的原始分辨率。4) 分割模块:根据编码后的特征和上采样后的点云,预测每个点的移动状态。

关键创新:论文的关键创新在于将速度信息融入到Transformer网络的各个模块中。具体来说,论文设计了一种新的Transformer层,该层可以同时处理几何特征和速度特征。此外,论文还提出了一种基于Transformer的上采样方法,可以自适应地融合信息,克服了稀疏点云插值的限制。

关键设计:论文使用了交叉熵损失函数来训练分割模块。Transformer编码器和解码器都使用了多头注意力机制。上采样模块使用了一种可学习的权重来融合不同尺度的特征。具体的参数设置和网络结构细节在论文中有详细描述。

📊 实验亮点

该论文在基于RadarScenes数据集构建的雷达移动物体分割基准上进行了实验。实验结果表明,所提出的Radar Velocity Transformer在单帧雷达数据上实现了优越的分割性能,超过了现有的state-of-the-art方法。此外,该网络运行速度快于传感器帧率,满足实时性要求。具体性能数据和对比基线在论文中有详细展示。

🎯 应用场景

该研究成果可应用于自动驾驶、高级驾驶辅助系统(ADAS)、机器人导航等领域。通过单帧雷达数据实现快速准确的移动物体分割,能够提高自动驾驶车辆对周围环境的感知能力,增强行驶安全性,并为后续的路径规划和决策提供可靠依据。该技术还有助于提升在恶劣天气条件下的感知性能,例如雨、雪、雾等。

📄 摘要(原文)

The awareness about moving objects in the surroundings of a self-driving vehicle is essential for safe and reliable autonomous navigation. The interpretation of LiDAR and camera data achieves exceptional results but typically requires to accumulate and process temporal sequences of data in order to extract motion information. In contrast, radar sensors, which are already installed in most recent vehicles, can overcome this limitation as they directly provide the Doppler velocity of the detections and, hence incorporate instantaneous motion information within a single measurement. % In this paper, we tackle the problem of moving object segmentation in noisy radar point clouds. We also consider differentiating parked from moving cars, to enhance scene understanding. Instead of exploiting temporal dependencies to identify moving objects, we develop a novel transformer-based approach to perform single-scan moving object segmentation in sparse radar scans accurately. The key to our Radar Velocity Transformer is to incorporate the valuable velocity information throughout each module of the network, thereby enabling the precise segmentation of moving and non-moving objects. Additionally, we propose a transformer-based upsampling, which enhances the performance by adaptively combining information and overcoming the limitation of interpolation of sparse point clouds. Finally, we create a new radar moving object segmentation benchmark based on the RadarScenes dataset and compare our approach to other state-of-the-art methods. Our network runs faster than the frame rate of the sensor and shows superior segmentation results using only single-scan radar data.