Scaling Foundation Models for Radar Scene Understanding

📄 arXiv: 2511.21105v1 📥 PDF

作者: Pushkal Mishra, Kshitiz Bansal, Dinesh Bharadia

分类: cs.CV

发布日期: 2025-11-26


💡 一句话要点

提出RadarFM雷达基础模型,通过结构化空间语言监督实现场景理解。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知 (Perception & SLAM)

关键词: 雷达场景理解 基础模型 对比学习 空间语言监督 自动驾驶

📋 核心要点

  1. 现有雷达方法任务特定,缺乏通用性,阻碍了跨任务知识迁移。
  2. RadarFM通过结构化空间语言监督,学习统一的场景级雷达表示。
  3. 在CARLA模拟器上生成大规模雷达数据集,并提出新的定位感知评估指标。

📝 摘要(中文)

雷达传感器在恶劣天气、光照和远距离条件下提供可靠的感知能力。近年来,基础模型在视觉和语言理解方面取得了显著进展,但它们与雷达传感的结合仍未得到充分探索。现有的雷达方法是分散且特定于任务的;每个下游任务都采用不同的架构和训练目标,阻碍了跨任务的迁移。本文提出了RadarFM:一种雷达基础模型,通过结构化的空间语言监督学习统一的场景级表示。主要贡献包括:(1)一种结构化的标注框架,用于编码原生雷达坐标系中的车辆分布;(2)一种感知哈希的对比学习目标,用于量化连续的场景相似性,而非二元匹配,从而实现细粒度的空间推理。利用CARLA模拟器,生成了大规模、良好标注的雷达数据集,涵盖了各种驾驶场景。此外,还提出了定位感知的指标,用于评估超出传统检测指标的空间精度。

🔬 方法详解

问题定义:现有雷达场景理解方法通常针对特定任务设计,例如目标检测或语义分割,缺乏通用性和可迁移性。不同任务使用不同的网络结构和训练目标,导致无法有效利用雷达数据中的丰富信息,阻碍了雷达感知能力的进一步提升。

核心思路:RadarFM的核心思路是借鉴视觉和语言领域的基础模型思想,通过大规模数据上的预训练,学习通用的雷达场景表示。通过引入结构化的空间语言监督,将雷达数据与场景描述相结合,使模型能够理解场景中的空间关系和语义信息。

技术框架:RadarFM的整体框架包括以下几个主要模块:1) 雷达数据编码器:将原始雷达数据转换为特征向量表示。2) 结构化标注框架:将场景中的车辆分布编码为原生雷达坐标系下的空间语言描述。3) 对比学习模块:利用感知哈希的对比学习目标,学习场景之间的相似性度量。4) 下游任务适配模块:将预训练的RadarFM模型迁移到不同的下游任务中,例如目标检测、场景分割等。

关键创新:RadarFM的关键创新在于:1) 提出了结构化的空间语言标注框架,能够有效地编码雷达场景中的空间关系和语义信息。2) 引入了感知哈希的对比学习目标,能够量化连续的场景相似性,而非传统的二元匹配,从而实现细粒度的空间推理。

关键设计:在结构化标注框架中,使用车辆在雷达坐标系下的位置、速度、朝向等信息来描述场景。对比学习损失函数采用InfoNCE损失,并结合感知哈希技术,对相似的场景赋予更高的权重。网络结构方面,可以使用Transformer或CNN等常见的网络结构作为雷达数据编码器。

📊 实验亮点

论文在CARLA模拟器上进行了大量实验,证明了RadarFM的有效性。实验结果表明,RadarFM在多个雷达场景理解任务上取得了显著的性能提升,例如目标检测和场景分割。此外,论文还提出了新的定位感知评估指标,能够更全面地评估雷达场景理解模型的性能。

🎯 应用场景

RadarFM具有广泛的应用前景,例如自动驾驶、机器人导航、智能交通等领域。它可以为自动驾驶系统提供更可靠的感知能力,尤其是在恶劣天气和光照条件下。此外,RadarFM还可以用于构建高精度的雷达地图,为机器人导航提供支持。在智能交通领域,RadarFM可以用于交通流量监控、车辆行为分析等。

📄 摘要(原文)

Radar sensors provide reliable perception across adverse weather, lighting, and long-range conditions. Recent advances in foundation models have transformed visual and language understanding, yet their integration with radar sensing remains largely underexplored. Existing radar approaches are fragmented and task-specific; each downstream task employs distinct architectures and training objectives, preventing transfer across tasks. In this work, we introduce RadarFM: a radar foundation model that learns unified scene-level representations through structured spatial language supervision. We make two key contributions: (1) a structured caption framework that encodes vehicle distributions in native radar coordinates, and (2) a hash-aware contrastive learning objective that quantifies continuous scene similarity rather than binary matching, enabling fine-grained spatial reasoning. Leveraging the CARLA simulator, we generate large-scale, well-annotated radar datasets across diverse driving scenarios. We also propose localization-aware metrics that assess spatial accuracy beyond traditional detection measures.