Flying in Clutter on Monocular RGB by Learning in 3D Radiance Fields with Domain Adaptation

📄 arXiv: 2512.17349v1 📥 PDF

作者: Xijie Huang, Jinhan Li, Tianyue Wu, Xin Zhou, Zhichao Han, Fei Gao

分类: cs.RO

发布日期: 2025-12-19

备注: 8 pages, 7 figures


💡 一句话要点

提出基于3D辐射场和对抗域适应的单目RGB图像无人机复杂环境导航方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机导航 单目视觉 3D辐射场 对抗域适应 零样本迁移

📋 核心要点

  1. 现有自主导航系统依赖激光雷达和深度相机,但成本高昂,单目RGB图像导航在复杂环境中面临挑战。
  2. 该论文提出了一种基于3D高斯溅射和对抗域适应的框架,以弥合模拟和真实环境之间的差距。
  3. 实验结果表明,该方法实现了策略到物理世界的零样本迁移,支持无人机在复杂环境中安全飞行。

📝 摘要(中文)

现代自主导航系统主要依赖激光雷达和深度相机。然而,一个根本问题仍然存在:飞行机器人能否仅使用单目RGB图像在复杂环境中导航?考虑到真实世界数据收集的高昂成本,在模拟环境中学习策略提供了一条有希望的途径。然而,由于模拟到真实世界的显著感知差距,将这些策略直接部署到物理世界受到阻碍。因此,我们提出了一个框架,将3D高斯溅射(3DGS)环境的照片真实感与对抗域适应相结合。通过在高保真模拟中训练,同时显式地最小化特征差异,我们的方法确保策略依赖于域不变的线索。实验结果表明,我们的策略实现了对物理世界的鲁棒零样本迁移,从而能够在具有不同光照的非结构化环境中进行安全和敏捷的飞行。

🔬 方法详解

问题定义:论文旨在解决仅使用单目RGB图像,无人机在复杂环境中自主导航的问题。现有方法要么依赖昂贵的激光雷达或深度相机,要么在模拟环境中训练的策略难以直接迁移到真实世界,存在显著的sim-to-real差距。这种差距导致在模拟环境中训练的策略在真实世界中性能显著下降,甚至失效。

核心思路:论文的核心思路是利用3D高斯溅射(3DGS)生成高保真度的模拟环境,并结合对抗域适应技术,使训练的策略能够提取域不变的特征。通过最小化模拟环境和真实环境之间的特征差异,策略可以更好地泛化到真实世界,实现零样本迁移。

技术框架:整体框架包含两个主要部分:基于3DGS的模拟环境构建和基于对抗域适应的策略学习。首先,利用3DGS生成逼真的模拟环境,提供高质量的RGB图像。然后,使用对抗域适应技术训练导航策略,该策略旨在最小化模拟环境和真实环境之间的特征差异。导航策略接收RGB图像作为输入,输出无人机的控制指令。

关键创新:该论文的关键创新在于将3DGS的高保真渲染能力与对抗域适应技术相结合,从而有效地解决了sim-to-real问题。与传统的域适应方法相比,该方法能够更好地提取域不变的特征,并实现策略的零样本迁移。此外,使用3DGS作为模拟环境,可以生成更逼真的场景,从而提高策略的泛化能力。

关键设计:论文使用了对抗神经网络来最小化模拟环境和真实环境之间的特征差异。具体来说,使用一个判别器网络来区分来自模拟环境和真实环境的特征,并使用一个生成器网络(导航策略)来欺骗判别器。通过对抗训练,生成器网络可以学习提取域不变的特征。此外,论文还使用了强化学习算法来训练导航策略,并设计了合适的奖励函数来鼓励无人机安全和高效地飞行。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在真实世界环境中实现了鲁棒的零样本迁移。与没有进行域适应的基线方法相比,该方法显著提高了无人机在复杂环境中的导航成功率和安全性。具体性能数据未知,但定性结果显示了在不同光照和环境条件下的稳定飞行。

🎯 应用场景

该研究成果可应用于无人机自主巡检、灾后救援、环境监测等领域。通过降低对硬件传感器的依赖,可以降低无人机系统的成本和复杂性,使其更易于部署和应用。未来,该技术有望扩展到其他机器人平台,实现更广泛的自主导航应用。

📄 摘要(原文)

Modern autonomous navigation systems predominantly rely on lidar and depth cameras. However, a fundamental question remains: Can flying robots navigate in clutter using solely monocular RGB images? Given the prohibitive costs of real-world data collection, learning policies in simulation offers a promising path. Yet, deploying such policies directly in the physical world is hindered by the significant sim-to-real perception gap. Thus, we propose a framework that couples the photorealism of 3D Gaussian Splatting (3DGS) environments with Adversarial Domain Adaptation. By training in high-fidelity simulation while explicitly minimizing feature discrepancy, our method ensures the policy relies on domain-invariant cues. Experimental results demonstrate that our policy achieves robust zero-shot transfer to the physical world, enabling safe and agile flight in unstructured environments with varying illumination.