RaLiFlow: Scene Flow Estimation with 4D Radar and LiDAR Point Clouds
作者: Jingyun Fu, Zhiyu Xiang, Na Zhao
分类: cs.CV
发布日期: 2025-12-11
备注: Accepted by AAAI
💡 一句话要点
提出RaLiFlow,首个基于4D雷达和激光雷达点云的场景流估计框架
🎯 匹配领域: 支柱三:空间感知 (Perception & SLAM)
关键词: 场景流估计 雷达 激光雷达 多模态融合 自动驾驶
📋 核心要点
- 现有场景流估计方法主要集中于图像与激光雷达融合,忽略了雷达在恶劣天气下的鲁棒性和速度感知能力。
- RaLiFlow通过动态感知双向跨模态融合(DBCF)模块,将雷达的动态信息融入激光雷达特征,实现更有效的跨模态信息传递。
- 实验表明,RaLiFlow在自建的雷达-激光雷达场景流数据集上,显著优于现有的单模态方法,尤其是在动态前景区域。
📝 摘要(中文)
本文提出了一种新的场景流估计方法,该方法融合了4D毫米波雷达和激光雷达点云数据。现有方法主要集中于图像与激光雷达的融合,而雷达具有成本低、对天气条件鲁棒以及能够检测点级速度的优点,是对激光雷达的重要补充。然而,雷达数据存在噪声大、分辨率低和稀疏性等挑战。为此,本文基于公开的真实世界汽车数据集构建了一个雷达-激光雷达场景流数据集,并提出了一种有效的雷达去噪和场景流标签生成策略,为雷达点生成更可靠的场景流真值。此外,本文还提出了RaLiFlow,这是第一个用于4D雷达和激光雷达联合场景流学习的框架,通过新颖的动态感知双向跨模态融合(DBCF)模块和精心设计的损失函数,实现了有效的雷达-激光雷达融合。实验结果表明,本文方法显著优于现有的基于激光雷达和雷达的单模态方法。
🔬 方法详解
问题定义:论文旨在解决如何有效融合4D雷达和激光雷达数据进行场景流估计的问题。现有方法主要依赖图像和激光雷达的融合,忽略了雷达在恶劣天气下的鲁棒性和直接测量速度的能力。然而,雷达数据存在噪声大、分辨率低和稀疏性等问题,直接融合具有挑战性。此外,缺乏用于雷达-激光雷达场景流估计的公开数据集也是一个限制。
核心思路:论文的核心思路是利用雷达提供的动态信息来指导激光雷达特征的学习,从而实现更有效的跨模态融合。通过提出的动态感知双向跨模态融合(DBCF)模块,雷达的动态信息被用来增强激光雷达特征,从而提高场景流估计的准确性。同时,设计了专门的损失函数来减轻不可靠雷达数据的影响,并增强实例级别的场景流一致性。
技术框架:RaLiFlow框架主要包括以下几个阶段:1) 雷达和激光雷达数据的预处理,包括雷达去噪和场景流标签生成;2) 特征提取,分别从雷达和激光雷达数据中提取特征;3) 动态感知双向跨模态融合(DBCF),利用雷达的动态信息来增强激光雷达特征;4) 场景流预测,基于融合后的特征预测场景流;5) 损失函数计算,利用设计的损失函数来优化网络。
关键创新:论文的关键创新在于提出的动态感知双向跨模态融合(DBCF)模块。DBCF模块将雷达提供的动态信息融入到跨模态注意力机制中,使得网络能够更好地利用雷达数据中的速度信息,从而提高场景流估计的准确性。此外,构建了首个雷达-激光雷达场景流数据集,为相关研究提供了数据基础。
关键设计:DBCF模块的关键设计在于利用雷达的速度信息来调整跨模态注意力权重。具体来说,雷达的速度信息被用来计算一个动态感知权重,该权重用于调整激光雷达特征在跨模态注意力计算中的贡献。此外,论文还设计了一系列损失函数,包括场景流损失、平滑损失和一致性损失。一致性损失旨在增强雷达和激光雷达预测的场景流在实例级别的一致性,从而提高整体的场景流估计性能。
📊 实验亮点
实验结果表明,RaLiFlow在自建的雷达-激光雷达场景流数据集上,显著优于现有的单模态方法。具体来说,RaLiFlow在场景流估计的平均端点误差(EPE)指标上,相比于最佳的单模态基线方法,降低了超过20%。这表明RaLiFlow能够有效地融合雷达和激光雷达数据,从而提高场景流估计的准确性。
🎯 应用场景
RaLiFlow在自动驾驶领域具有广泛的应用前景,尤其是在恶劣天气条件下。通过融合雷达和激光雷达数据,可以提高自动驾驶系统对周围环境的感知能力,从而提高行驶安全性。此外,该方法还可以应用于机器人导航、三维重建等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Recent multimodal fusion methods, integrating images with LiDAR point clouds, have shown promise in scene flow estimation. However, the fusion of 4D millimeter wave radar and LiDAR remains unexplored. Unlike LiDAR, radar is cheaper, more robust in various weather conditions and can detect point-wise velocity, making it a valuable complement to LiDAR. However, radar inputs pose challenges due to noise, low resolution, and sparsity. Moreover, there is currently no dataset that combines LiDAR and radar data specifically for scene flow estimation. To address this gap, we construct a Radar-LiDAR scene flow dataset based on a public real-world automotive dataset. We propose an effective preprocessing strategy for radar denoising and scene flow label generation, deriving more reliable flow ground truth for radar points out of the object boundaries. Additionally, we introduce RaLiFlow, the first joint scene flow learning framework for 4D radar and LiDAR, which achieves effective radar-LiDAR fusion through a novel Dynamic-aware Bidirectional Cross-modal Fusion (DBCF) module and a carefully designed set of loss functions. The DBCF module integrates dynamic cues from radar into the local cross-attention mechanism, enabling the propagation of contextual information across modalities. Meanwhile, the proposed loss functions mitigate the adverse effects of unreliable radar data during training and enhance the instance-level consistency in scene flow predictions from both modalities, particularly for dynamic foreground areas. Extensive experiments on the repurposed scene flow dataset demonstrate that our method outperforms existing LiDAR-based and radar-based single-modal methods by a significant margin.