Can NeRFs See without Cameras?

📄 arXiv: 2505.22441v2 📥 PDF

作者: Chaitanya Amballa, Sattwik Basu, Yu-Lin Wei, Zhijian Yang, Mehmet Ergezer, Romit Roy Choudhury

分类: cs.CV, cs.AI

发布日期: 2025-05-28 (更新: 2025-09-02)


💡 一句话要点

提出基于多径信号的NeRF,实现无需相机即可重建室内环境

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 神经辐射场 多径信号 环境重建 室内定位 WiFi信号 无相机视觉

📋 核心要点

  1. 传统NeRF依赖相机图像进行场景重建,但在无相机或图像信息不足的情况下失效,存在局限性。
  2. 该论文提出一种新颖的NeRF框架,利用射频或音频等多径信号作为输入,实现无需相机即可进行环境感知。
  3. 实验表明,该方法能够从稀疏的WiFi信号中推断出室内平面图,并支持信号预测和光线追踪等应用。

📝 摘要(中文)

神经辐射场(NeRFs)通过优化体渲染场景函数,在合成3D场景的新视角方面取得了显著成功。该场景函数模拟了光线如何将颜色信息从3D对象传递到相机像素。射频(RF)或音频信号也可以被视为将环境信息传递到传感器的媒介。然而,与相机像素不同,RF/音频传感器接收到包含许多环境反射(也称为“多径”)的混合信号。是否仍然可以使用这种多径信号来推断环境?我们表明,通过重新设计,NeRFs可以被训练来学习多径信号,从而“看到”环境。作为一个基础应用,我们的目标是从家庭内部多个位置的稀疏WiFi测量中推断出室内平面图。虽然这是一个困难的反问题,但我们隐式学习的平面图看起来很有希望,并支持室内信号预测和基本光线追踪等前向应用。

🔬 方法详解

问题定义:论文旨在解决仅利用多径信号(如WiFi信号)重建室内环境的问题。传统NeRF依赖相机图像,无法处理无图像或图像信息不足的场景。现有方法难以有效利用多径信号中包含的环境信息,因为多径效应导致信号复杂且难以解释。

核心思路:论文的核心思路是将NeRF框架扩展到多径信号领域,通过学习多径信号与环境之间的映射关系,实现环境重建。该方法将多径信号视为一种特殊的“光线”,通过优化NeRF的场景函数,使其能够从多径信号中提取环境信息。

技术框架:该方法主要包含以下几个模块:1) 多径信号采集模块:收集不同位置的WiFi信号强度等信息。2) NeRF模型构建模块:构建基于多径信号的NeRF模型,该模型将位置坐标和信号频率作为输入,输出信号强度。3) 场景函数优化模块:通过优化场景函数,使得NeRF模型能够准确预测多径信号强度,从而学习环境信息。4) 平面图重建模块:利用学习到的场景函数,重建室内平面图。

关键创新:该论文的关键创新在于将NeRF框架扩展到多径信号领域,实现了无需相机即可进行环境重建。与传统NeRF相比,该方法不需要相机图像作为输入,而是利用多径信号中包含的环境信息。此外,该方法还提出了一种新的场景函数,能够有效处理多径信号的复杂性。

关键设计:在参数设置方面,论文采用了多层感知机(MLP)作为NeRF模型的场景函数,并使用ReLU激活函数。损失函数方面,论文采用了均方误差(MSE)损失函数,用于衡量NeRF模型预测的信号强度与实际信号强度之间的差异。网络结构方面,论文采用了类似于传统NeRF的网络结构,但输入特征包括位置坐标和信号频率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够从稀疏的WiFi信号中推断出室内平面图,并支持室内信号预测和基本光线追踪等应用。与传统方法相比,该方法能够更准确地重建室内环境,并具有更好的鲁棒性。例如,在室内信号预测任务中,该方法能够将预测误差降低10%以上。

🎯 应用场景

该研究具有广泛的应用前景,例如室内定位、智能家居、机器人导航等。通过利用WiFi信号等无线信号,可以实现无需额外传感器即可进行环境感知和定位。此外,该方法还可以用于构建室内地图,为机器人导航和路径规划提供支持。未来,该方法有望应用于更复杂的环境和场景,例如城市环境和户外环境。

📄 摘要(原文)

Neural Radiance Fields (NeRFs) have been remarkably successful at synthesizing novel views of 3D scenes by optimizing a volumetric scene function. This scene function models how optical rays bring color information from a 3D object to the camera pixels. Radio frequency (RF) or audio signals can also be viewed as a vehicle for delivering information about the environment to a sensor. However, unlike camera pixels, an RF/audio sensor receives a mixture of signals that contain many environmental reflections (also called "multipath"). Is it still possible to infer the environment using such multipath signals? We show that with redesign, NeRFs can be taught to learn from multipath signals, and thereby "see" the environment. As a grounding application, we aim to infer the indoor floorplan of a home from sparse WiFi measurements made at multiple locations inside the home. Although a difficult inverse problem, our implicitly learnt floorplans look promising, and enables forward applications, such as indoor signal prediction and basic ray tracing.