GRaD-Nav: Efficiently Learning Visual Drone Navigation with Gaussian Radiance Fields and Differentiable Dynamics

📄 arXiv: 2503.03984v3 📥 PDF

作者: Qianzhong Chen, Jiankai Sun, Naixiang Gao, JunEn Low, Timothy Chen, Mac Schwager

分类: cs.RO

发布日期: 2025-03-06 (更新: 2025-07-30)

🔗 代码/项目: GITHUB


💡 一句话要点

GRaD-Nav:利用高斯辐射场和可微动力学高效学习视觉无人机导航

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 无人机导航 强化学习 3D高斯辐射场 可微渲染 Sim-to-Real迁移

📋 核心要点

  1. 现有基于强化学习的无人机视觉导航方法存在样本效率低、模拟到真实环境迁移困难以及泛化能力不足等问题。
  2. 论文提出GRaD-Nav框架,结合3D高斯辐射场和可微深度强化学习,利用高保真场景表示和可微仿真来提升训练效率和迁移能力。
  3. 实验结果表明,该方法在训练效率、零样本迁移和任务内泛化方面均优于现有方法,并在真实无人机上验证了其有效性。

📝 摘要(中文)

自主视觉导航是机器人自主性的关键要素。强化学习(RL)为策略训练提供了一种有前景的范例。然而,现有的RL方法存在样本复杂度高、sim-to-real迁移效果差以及在训练期间未见过的导航场景中运行时适应性有限等问题。这些问题对于具有复杂非线性且不稳定的动力学特性,以及控制和感知之间存在强动态耦合的无人机来说尤其具有挑战性。本文提出了一种新颖的框架,该框架将3D高斯溅射(3DGS)与可微深度强化学习(DDRL)相结合,以训练基于视觉的无人机导航策略。通过利用高保真3D场景表示和可微仿真,我们的方法提高了样本效率和sim-to-real迁移能力。此外,我们还引入了一个上下文辅助估计网络(CENet),以适应运行时的环境变化。此外,通过在不同周围环境的混合中进行课程学习,我们实现了任务内泛化,即解决训练期间未见过的新任务实例的能力。无人机硬件实验表明,与最先进的RL方法相比,我们的方法具有很高的训练效率,无需微调即可实现真实机器人部署的零样本sim-to-real迁移,并且能够适应同一任务类别中的新实例(例如,在不同位置飞行通过带有不同干扰物的门)。我们的模拟器和训练框架已在https://github.com/Qianzhong-Chen/grad_nav上开源。

🔬 方法详解

问题定义:无人机视觉导航任务旨在使无人机能够自主地根据视觉信息在复杂环境中安全有效地飞行。现有基于强化学习的方法通常需要大量的训练样本,并且在从模拟环境迁移到真实环境时性能会显著下降。此外,这些方法在面对训练期间未见过的环境变化时,适应能力有限。

核心思路:论文的核心思路是将3D高斯辐射场(3DGS)作为场景表示,并结合可微深度强化学习(DDRL)进行策略训练。3DGS能够提供高保真度的场景表示,而DDRL允许通过可微仿真进行高效的策略优化。此外,引入上下文辅助估计网络(CENet)来增强对环境变化的适应性。

技术框架:GRaD-Nav框架主要包含以下几个模块:1) 3D高斯辐射场(3DGS):用于构建高保真度的场景表示。2) 可微深度强化学习(DDRL):用于训练无人机导航策略。3) 上下文辅助估计网络(CENet):用于估计环境上下文信息,并自适应地调整策略。整体流程是,首先使用3DGS构建场景表示,然后利用DDRL在仿真环境中训练导航策略,最后使用CENet对策略进行微调,以适应真实环境中的变化。

关键创新:该方法的主要创新点在于将3DGS与DDRL相结合,从而实现了高效的视觉无人机导航策略训练。与传统的基于深度学习的导航方法相比,该方法能够利用高保真度的3D场景信息,从而提高样本效率和sim-to-real迁移能力。此外,CENet的引入进一步增强了对环境变化的适应性。

关键设计:在3DGS模块中,使用了高斯分布来表示场景中的每个点,并使用球谐函数来表示点的颜色信息。在DDRL模块中,使用了Actor-Critic架构,其中Actor网络用于生成无人机的控制指令,Critic网络用于评估当前状态的价值。CENet是一个小型神经网络,用于估计环境的上下文信息,例如光照条件和场景复杂度。损失函数包括导航奖励、碰撞惩罚和控制惩罚。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GRaD-Nav在训练效率方面显著优于现有的强化学习方法。该方法实现了零样本sim-to-real迁移,无需在真实环境中进行微调即可直接部署。此外,GRaD-Nav还展现了良好的任务内泛化能力,能够适应训练期间未见过的环境变化。例如,无人机能够成功地通过不同位置和带有不同干扰物的门。

🎯 应用场景

该研究成果可应用于多种场景,例如:无人机自主巡检、物流配送、灾害救援和环境监测等。通过提高无人机在复杂环境中的导航能力,可以降低人工成本,提高工作效率,并减少安全风险。未来,该技术有望进一步推广到其他机器人平台,例如:自动驾驶汽车和移动机器人。

📄 摘要(原文)

Autonomous visual navigation is an essential element in robot autonomy. Reinforcement learning (RL) offers a promising policy training paradigm. However existing RL methods suffer from high sample complexity, poor sim-to-real transfer, and limited runtime adaptability to navigation scenarios not seen during training. These problems are particularly challenging for drones, with complex nonlinear and unstable dynamics, and strong dynamic coupling between control and perception. In this paper, we propose a novel framework that integrates 3D Gaussian Splatting (3DGS) with differentiable deep reinforcement learning (DDRL) to train vision-based drone navigation policies. By leveraging high-fidelity 3D scene representations and differentiable simulation, our method improves sample efficiency and sim-to-real transfer. Additionally, we incorporate a Context-aided Estimator Network (CENet) to adapt to environmental variations at runtime. Moreover, by curriculum training in a mixture of different surrounding environments, we achieve in-task generalization, the ability to solve new instances of a task not seen during training. Drone hardware experiments demonstrate our method's high training efficiency compared to state-of-the-art RL methods, zero shot sim-to-real transfer for real robot deployment without fine tuning, and ability to adapt to new instances within the same task class (e.g. to fly through a gate at different locations with different distractors in the environment). Our simulator and training framework are open-sourced at: https://github.com/Qianzhong-Chen/grad_nav.