Weakly Supervised Cross-Modal Learning for 4D Radar Scene Flow Estimation

作者: Jingyun Fu, Zhiyu Xiang, Na Zhao

分类: cs.CV

发布日期: 2026-05-18

备注: Accepted by ICML2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出弱监督跨模态学习框架，用于提升4D雷达场景流估计精度。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 雷达场景流 弱监督学习 跨模态学习 自动驾驶 实例分割 里程计

📋 核心要点

现有4D雷达场景流估计方法依赖自监督或昂贵的激光雷达数据，前者精度低，后者成本高且架构复杂。
提出一种弱监督迭代框架，仅使用图像和里程计进行辅助监督，降低了对激光雷达的依赖。
实验表明，该方法超越了依赖激光雷达的跨模态监督方法，并优于现有的全监督场景流估计方法。

📝 摘要（中文）

由于难以获取4D雷达场景流估计的真值数据，先前的方法通常依赖于自监督损失或使用3D激光雷达数据、2D图像和里程计进行跨模态监督。然而，由于雷达固有的低保真度测量，自监督方法通常产生次优结果，而现有的跨模态监督方法引入了复杂的多任务架构，并且需要昂贵的激光雷达传感器来从预训练的3D跟踪模型生成伪雷达场景流标签。为了克服这些限制，我们提出了一种特定于任务的迭代框架，用于弱监督雷达场景流学习，仅使用图像和里程计进行训练期间的辅助监督。特别地，我们通过利用现成的2D跟踪和分割算法来获得跟踪的实例掩码，从而建立两个新的实例感知自监督损失，这些实例掩码被反投影到3D空间以提供实例级别的语义指导；对于静态区域，我们将车辆里程计与雷达的内在运动线索相结合，以构建刚性静态损失。在真实世界的View-of-Delft (VoD)数据集上的大量实验表明，我们的方法不仅超越了依赖于密集激光雷达点云上的3D多目标跟踪的最先进的跨模态监督方法，而且优于现有的完全监督场景流估计方法。

🔬 方法详解

问题定义：论文旨在解决4D雷达场景流估计问题，即预测雷达点云中每个点在连续帧之间的运动矢量。现有方法要么依赖于雷达数据的自监督，但由于雷达数据质量不高，效果不佳；要么依赖于激光雷达等其他模态的数据进行跨模态监督，但激光雷达成本高昂，且需要复杂的多任务学习框架。

核心思路：论文的核心思路是利用图像和车辆里程计作为辅助信息，在弱监督的框架下学习雷达场景流。通过2D图像的跟踪和分割结果，反投影到3D雷达空间，提供实例级别的语义信息。同时，结合车辆里程计和雷达的运动信息，对静态区域施加约束。这样可以在不需要昂贵激光雷达的情况下，提升雷达场景流的估计精度。

技术框架：该框架是一个迭代的训练流程。首先，利用2D图像的跟踪和分割算法，获得实例掩码，并将其反投影到3D雷达空间。然后，基于反投影的实例掩码，计算实例感知的自监督损失。同时，结合车辆里程计和雷达的运动信息，计算静态区域的刚性静态损失。最后，将这两个损失与雷达场景流预测的损失函数结合起来，进行迭代训练。

关键创新：该论文的关键创新在于提出了两种新的实例感知的自监督损失函数，以及一种刚性静态损失函数。实例感知的自监督损失函数利用2D图像的语义信息，为3D雷达场景流的估计提供了实例级别的指导。刚性静态损失函数则利用车辆里程计和雷达的运动信息，对静态区域的场景流进行约束。

关键设计：论文使用了现成的2D跟踪和分割算法来获得实例掩码。反投影过程需要相机内外参数的标定。实例感知的自监督损失函数基于实例掩码计算，鼓励同一实例内的点具有相似的运动矢量。刚性静态损失函数基于车辆里程计和雷达的运动信息计算，鼓励静态区域的点具有与车辆运动一致的运动矢量。

🖼️ 关键图片

📊 实验亮点

在VoD数据集上的实验结果表明，该方法在雷达场景流估计精度上超越了依赖激光雷达的跨模态监督方法，并优于现有的全监督方法。这表明该方法在弱监督学习框架下，能够有效地利用图像和里程计信息，提升雷达场景流的估计性能。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航等领域。通过更精确的雷达场景流估计，可以提升自动驾驶车辆对周围环境的感知能力，从而提高行驶安全性。此外，该方法降低了对昂贵激光雷达的依赖，有助于降低自动驾驶系统的成本。

📄 摘要（原文）

Due to the difficulty of obtaining ground-truth data for 4D radar scene flow estimation, previous methods typically rely on either self-supervised losses or cross-modal supervision using 3D LiDAR data, 2D images, and odometry. However, self-supervised approaches often yield suboptimal results due to radar's inherently low-fidelity measurements, while existing cross-modal supervised methods introduce complex multi-task architecture and require costly LiDAR sensors to generate pseudo radar scene flow labels from pretrained 3D tracking models. To overcome these limitations, we propose a task-specific iterative framework for weakly supervised radar scene flow learning, using only images and odometry for auxiliary supervision during training. Specially, we establish two novel instance-aware self-supervised losses by exploiting off-the-shelf 2D tracking and segmentation algorithms to obtain tracked instance masks, which are back-projected into 3D space to provide instance-level semantic guidance; for static regions, we integrate vehicle odometry with radar's intrinsic motion cues to construct a rigid static loss. Extensive experiments on the real-world View-of-Delft (VoD) dataset demonstrate that our method not only surpasses state-of-the-art cross-modal supervised approaches that rely on 3D multi-object tracking on dense LiDAR point clouds but also outperforms existing fully supervised scene flow estimation methods. The code is open-sourced at \href{https://github.com/FuJingyun/IterFlow}{https://github.com/FuJingyun/IterFlow}.

Weakly Supervised Cross-Modal Learning for 4D Radar Scene Flow Estimation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理