Radon Implicit Field Transform (RIFT): Learning Scenes from Radar Signals

📄 arXiv: 2410.19801v2 📥 PDF

作者: Daqian Bao, Alex Saad-Falcon, Justin Romberg

分类: eess.SP, cs.CV, cs.LG

发布日期: 2024-10-16 (更新: 2024-12-08)

备注: A version of this manuscript is under review for ICLR 2025. This updated manuscript correspond to the revisions during rebuttal phase


💡 一句话要点

提出Radon隐式场变换(RIFT),利用雷达信号学习场景表示,降低数据采集成本。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 雷达信号处理 隐式神经表示 合成孔径雷达 场景重建 广义Radon变换

📋 核心要点

  1. 传统阵列信号处理对数据需求高,数据采集成本巨大,限制了其应用。
  2. RIFT利用广义Radon变换和隐式神经表示,从少量雷达数据中学习紧凑的场景表示。
  3. 实验表明,RIFT仅用10%的数据量,场景重建效果比传统方法提升高达188%。

📝 摘要(中文)

阵列信号处理(ASP)中的数据采集成本高昂,因为实现高角度和距离分辨率分别需要大的天线孔径和宽频率带宽。ASP问题的数据需求随着视点和频率的数量成倍增长,显著增加了数据收集的负担,即使是对于仿真也是如此。隐式神经表示(INR)——基于神经网络的3D对象和场景模型——提供了紧凑和连续的表示,只需要最少的雷达数据。它们可以插值到未见过的视点,并有可能解决ASP问题中的采样成本。在这项工作中,我们选择合成孔径雷达(SAR)作为ASP的一个案例,并提出了Radon隐式场变换(RIFT)。RIFT由两个部分组成:雷达的经典前向模型(广义Radon变换,GRT)和一个基于从雷达信号学习的INR场景表示。通过用对应于不同数据模态的适当算法替换GRT,该方法可以扩展到其他ASP问题。在我们的实验中,我们首先使用GRT合成雷达数据。然后,我们通过最小化雷达信号的重建误差,在此合成数据上训练INR模型。训练后,我们使用训练好的INR渲染场景,并根据ground truth场景评估我们的场景表示。由于缺乏现有的基准,我们引入了两个主要的新误差指标:用于雷达信号插值的相位均方根误差(p-RMSE)和用于场景重建的幅度结构相似性指标(m-SSIM)。这些指标调整了传统的误差测量方法,以适应雷达信号的复杂性质。与雷达信号处理中的传统场景模型相比,我们的RIFT模型仅用10%的数据量,在场景重建方面实现了高达188%的改进。

🔬 方法详解

问题定义:论文旨在解决阵列信号处理(ASP)中数据采集成本高昂的问题。传统方法需要大量的视点和频率数据才能实现高分辨率,这使得数据采集,甚至仿真都变得非常困难。现有的场景模型通常需要大量的雷达数据,并且表示效率较低。

核心思路:论文的核心思路是利用隐式神经表示(INR)来构建场景的紧凑和连续表示,并结合雷达信号的物理模型(广义Radon变换,GRT)进行训练。通过这种方式,模型可以从少量雷达数据中学习场景信息,并插值到未见过的视点,从而降低数据采集成本。

技术框架:RIFT方法包含两个主要组成部分:1) 广义Radon变换(GRT),作为雷达信号的前向模型,用于合成雷达数据;2) 基于神经网络的隐式神经表示(INR),用于学习场景的表示。整体流程是:首先使用GRT合成雷达数据,然后使用这些数据训练INR模型,通过最小化雷达信号的重建误差来优化模型参数。训练完成后,可以使用训练好的INR模型渲染场景。

关键创新:RIFT的关键创新在于将经典的雷达信号处理模型(GRT)与新兴的隐式神经表示(INR)相结合。这种结合使得模型能够利用雷达信号的物理特性,并学习到场景的紧凑表示。此外,论文还提出了新的误差指标(p-RMSE和m-SSIM)来评估雷达信号插值和场景重建的性能,这些指标考虑了雷达信号的复数特性。

关键设计:论文使用广义Radon变换模拟雷达信号的生成过程。INR模型采用多层感知机(MLP)结构,输入是空间坐标,输出是场景的密度和反射率。损失函数是雷达信号的重建误差,通过最小化该误差来训练INR模型。为了评估模型的性能,论文提出了相位均方根误差(p-RMSE)和幅度结构相似性指标(m-SSIM),分别用于评估雷达信号插值和场景重建的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,RIFT模型仅使用10%的数据量,在场景重建方面比传统方法实现了高达188%的性能提升。此外,论文提出的p-RMSE和m-SSIM指标为雷达信号处理领域的场景重建任务提供了新的评估标准。

🎯 应用场景

RIFT方法可应用于各种雷达相关的场景理解任务,例如自动驾驶、遥感、目标检测和三维重建。通过减少数据采集的需求,该方法可以降低雷达系统的成本和复杂性,并提高其在资源受限环境中的适用性。未来,该方法可以扩展到其他阵列信号处理问题,例如声纳和无线通信。

📄 摘要(原文)

Data acquisition in array signal processing (ASP) is costly because achieving high angular and range resolutions necessitates large antenna apertures and wide frequency bandwidths, respectively. The data requirements for ASP problems grow multiplicatively with the number of viewpoints and frequencies, significantly increasing the burden of data collection, even for simulation. Implicit Neural Representations (INRs) -- neural network-based models of 3D objects and scenes -- offer compact and continuous representations with minimal radar data. They can interpolate to unseen viewpoints and potentially address the sampling cost in ASP problems. In this work, we select Synthetic Aperture Radar (SAR) as a case from ASP and propose Radon Implicit Field Transform (RIFT). RIFT consists of two components: a classical forward model for radar (Generalized Radon Transform, GRT), and an INR based scene representation learned from radar signals. This method can be extended to other ASP problems by replacing the GRT with appropriate algorithms corresponding to different data modalities. In our experiments, we first synthesize radar data using the GRT. We then train the INR model on this synthetic data by minimizing the reconstruction error of the radar signal. After training, we render the scene using the trained INR and evaluate our scene representation against the ground truth scene. Due to the lack of existing benchmarks, we introduce two main new error metrics: phase-Root Mean Square Error (p-RMSE) for radar signal interpolation, and magnitude-Structural Similarity Index measure(m-SSIM) for scene reconstruction. These metrics adapt traditional error measures to account for the complex nature of radar signals. Compared to traditional scene models in radar signal processing, with only 10% data footprint, our RIFT model achieves up to 188% improvement in scene reconstruction.