FalconGym: A Photorealistic Simulation Framework for Zero-Shot Sim-to-Real Vision-Based Quadrotor Navigation
作者: Yan Miao, Will Shen, Sayan Mitra
分类: cs.RO
发布日期: 2025-03-04 (更新: 2025-08-01)
备注: Accepted in IROS 2025
💡 一句话要点
FalconGym:用于四旋翼无人机零样本Sim-to-Real视觉导航的逼真模拟框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 四旋翼无人机 视觉导航 Sim-to-Real 神经辐射场 多模态融合
📋 核心要点
- 现有无人机视觉导航模拟器视觉逼真度不足,导致Sim-to-Real迁移性能差,难以直接应用于真实环境。
- 构建逼真的FalconGym模拟环境,结合神经姿态估计器和多模态控制器,实现零样本Sim-to-Real视觉导航。
- 实验表明,该方法在真实硬件飞行中达到95.8%的成功率,平均误差仅10厘米,显著优于现有方法。
📝 摘要(中文)
本文提出了一个新颖的框架,展示了在神经辐射场(NeRF)环境中学习的视觉控制策略,用于四旋翼无人机穿越竞速门的零样本Sim-to-Real迁移。从仿真到真实飞行的鲁棒迁移是一个主要挑战,因为标准模拟器通常缺乏足够的视觉逼真度。为了解决这个问题,我们构建了一个四旋翼竞速赛道的光逼真模拟环境,称为FalconGym,它为训练提供了实际上无限的合成图像。在FalconGym中,我们开发了一种用于穿越门的流水线方法,该方法结合了(i)神经姿态估计器(NPE)与卡尔曼滤波器,以从单帧RGB图像和IMU数据可靠地推断四旋翼姿态,以及(ii)基于自注意力机制的多模态控制器,该控制器自适应地整合视觉特征和姿态估计。这种多模态设计补偿了感知噪声和间歇性的门可见性。我们完全在FalconGym中通过模仿学习训练该控制器,并将生成的策略部署到真实硬件,无需额外的微调。在三个不同赛道(圆形、U型转弯和8字形)上的仿真实验表明,我们的控制器在成功率和穿越门精度方面均优于最先进的纯视觉基线。在跨越三个赛道和120个门的30次真实硬件飞行中,我们的控制器实现了95.8%的成功率,并且在穿越38厘米半径的门时的平均误差仅为10厘米。
🔬 方法详解
问题定义:论文旨在解决四旋翼无人机视觉导航中,由于仿真环境与真实环境存在差异,导致在仿真环境中训练的控制策略难以直接应用于真实环境的问题。现有方法依赖于简化或风格化的仿真环境,视觉逼真度不足,无法有效应对真实环境中的光照变化、纹理差异和噪声干扰等因素。
核心思路:论文的核心思路是构建一个高度逼真的仿真环境FalconGym,并设计一个能够有效利用视觉信息和姿态信息的多模态控制器。通过在FalconGym中进行训练,使控制器能够学习到对真实环境具有鲁棒性的视觉特征和控制策略,从而实现零样本Sim-to-Real迁移。
技术框架:整体框架包含两个主要模块:神经姿态估计器(NPE)和多模态控制器。首先,NPE从单帧RGB图像和IMU数据中估计四旋翼的姿态,并使用卡尔曼滤波器进行平滑。然后,多模态控制器将视觉特征和姿态估计作为输入,通过自注意力机制进行融合,并输出控制指令。整个训练过程在FalconGym中进行,采用模仿学习的方式,以专家轨迹作为监督信号。
关键创新:论文的关键创新在于构建了高逼真度的FalconGym仿真环境,并提出了结合神经姿态估计和多模态控制的零样本Sim-to-Real迁移方法。FalconGym利用NeRF技术生成逼真的合成图像,显著缩小了仿真环境与真实环境之间的差距。多模态控制器通过自注意力机制自适应地融合视觉和姿态信息,提高了控制器的鲁棒性和精度。
关键设计:NPE采用卷积神经网络提取图像特征,并回归姿态参数。多模态控制器使用Transformer结构,通过自注意力机制融合视觉特征和姿态估计。损失函数采用模仿学习常用的均方误差损失,以专家轨迹作为目标。训练过程中,对输入图像进行随机扰动,以增加控制器的鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在三个不同的赛道上实现了95.8%的成功率,平均误差仅为10厘米。与纯视觉的SOTA方法相比,该方法在成功率和穿越门精度方面均有显著提升。这些结果验证了FalconGym的有效性和多模态控制器的鲁棒性,为零样本Sim-to-Real视觉导航提供了有力的支持。
🎯 应用场景
该研究成果可应用于无人机自主导航、智能巡检、物流配送等领域。通过逼真的仿真环境和有效的控制策略,可以降低无人机开发的成本和风险,加速无人机技术的实际应用。未来,该方法有望推广到其他机器人领域,实现更广泛的Sim-to-Real迁移。
📄 摘要(原文)
We present a novel framework demonstrating zero-shot sim-to-real transfer of visual control policies learned in a Neural Radiance Field (NeRF) environment for quadrotors to fly through racing gates. Robust transfer from simulation to real flight poses a major challenge, as standard simulators often lack sufficient visual fidelity. To address this, we construct a photorealistic simulation environment of quadrotor racing tracks, called FalconGym, which provides effectively unlimited synthetic images for training. Within FalconGym, we develop a pipelined approach for crossing gates that combines (i) a Neural Pose Estimator (NPE) coupled with a Kalman filter to reliably infer quadrotor poses from single-frame RGB images and IMU data, and (ii) a self-attention-based multi-modal controller that adaptively integrates visual features and pose estimation. This multi-modal design compensates for perception noise and intermittent gate visibility. We train this controller purely in FalconGym with imitation learning and deploy the resulting policy to real hardware with no additional fine-tuning. Simulation experiments on three distinct tracks (circle, U-turn and figure-8) demonstrate that our controller outperforms a vision-only state-of-the-art baseline in both success rate and gate-crossing accuracy. In 30 live hardware flights spanning three tracks and 120 gates, our controller achieves a 95.8% success rate and an average error of just 10 cm when flying through 38 cm-radius gates.