Performance-Guided Refinement for Visual Aerial Navigation using Editable Gaussian Splatting in FalconGym 2.0
作者: Yan Miao, Ege Yuceel, Georgios Fainekos, Bardh Hoxha, Hideki Okamoto, Sayan Mitra
分类: cs.RO
发布日期: 2025-10-02
💡 一句话要点
提出基于可编辑高斯溅射和性能引导优化的视觉无人机导航方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉导航 无人机 高斯溅射 模拟训练 性能引导优化 泛化能力 鲁棒性
📋 核心要点
- 现有视觉导航策略易过拟合特定轨迹,面对轨迹变化泛化能力不足,限制了实际应用。
- 提出性能引导优化(PGR)算法,利用可编辑高斯溅射模拟器FalconGym 2.0,针对性训练提升策略性能。
- 实验表明,PGR训练的策略在泛化性、鲁棒性和sim-to-real迁移方面均优于现有方法,硬件实验成功率达98.6%。
📝 摘要(中文)
视觉策略设计对无人机导航至关重要。然而,目前最先进的视觉策略通常过度拟合单个轨迹,并且当轨迹几何形状发生变化时,其性能会下降。我们开发了FalconGym 2.0,这是一个基于高斯溅射(GSplat)的逼真模拟框架,具有编辑API,可以毫秒级地以编程方式生成各种静态和动态轨迹。利用FalconGym 2.0的可编辑性,我们提出了一种性能引导优化(PGR)算法,该算法将视觉策略的训练集中在具有挑战性的轨迹上,同时迭代地提高其性能。在具有不同动力学和环境的两个案例研究(固定翼无人机和四旋翼无人机)中,我们表明,在FalconGym 2.0中使用PGR训练的单个视觉策略在泛化性和鲁棒性方面优于最先进的基线:它可以推广到三个未见过的轨迹,成功率达到100%,而无需进行每个轨迹的重新训练,并且在门姿态扰动下保持更高的成功率。最后,我们证明了在FalconGym 2.0中使用PGR训练的视觉策略可以零样本迁移到四旋翼硬件,在跨越两个三门轨迹和一个移动门轨迹的30次试验中,成功率达到98.6%(69/70个门)。
🔬 方法详解
问题定义:现有视觉导航策略在面对新的或变化的飞行轨迹时,泛化能力较差。它们往往过度拟合训练时使用的特定轨迹,导致在实际应用中性能显著下降。这种过度拟合问题限制了视觉导航策略的实用性和可部署性。
核心思路:论文的核心思路是通过模拟环境的快速生成和编辑能力,以及性能引导的训练策略,来提高视觉导航策略的泛化能力和鲁棒性。具体来说,通过FalconGym 2.0快速生成多样化的轨迹,并利用PGR算法,将训练重点放在策略表现不佳的具有挑战性的轨迹上,从而迭代地提升策略的整体性能。
技术框架:整体框架包含两个主要部分:1) 基于高斯溅射的可编辑模拟环境FalconGym 2.0,用于快速生成和编辑各种静态和动态的飞行轨迹;2) 性能引导优化(PGR)算法,用于指导视觉策略的训练过程,使其专注于提升在困难轨迹上的表现。PGR算法通过评估策略在不同轨迹上的性能,选择具有挑战性的轨迹进行重点训练,并迭代地更新策略参数。
关键创新:论文的关键创新在于将可编辑的高斯溅射模拟环境与性能引导的训练策略相结合。FalconGym 2.0提供了一种快速生成多样化训练数据的手段,而PGR算法则有效地利用这些数据,将训练资源集中在提升策略泛化能力的关键环节上。与传统的训练方法相比,这种方法能够更有效地提高视觉导航策略的鲁棒性和泛化能力。
关键设计:FalconGym 2.0的关键设计在于其基于高斯溅射的场景表示和编辑API。高斯溅射能够高效地渲染逼真的视觉场景,而编辑API则允许用户以编程方式快速修改场景中的各种元素,例如轨迹的形状、门的姿态等。PGR算法的关键设计在于其性能评估指标和轨迹选择策略。通过评估策略在不同轨迹上的成功率、飞行时间等指标,PGR算法能够准确地识别出具有挑战性的轨迹,并将其用于后续的训练过程。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用PGR算法在FalconGym 2.0中训练的视觉策略在泛化性和鲁棒性方面显著优于现有方法。该策略在三个未见过的轨迹上实现了100%的成功率,无需进行任何重新训练。此外,在门姿态扰动下,该策略也保持了较高的成功率。最重要的是,该策略成功地零样本迁移到真实的四旋翼硬件上,在30次试验中实现了98.6%的成功率。
🎯 应用场景
该研究成果可应用于各种无人机自主导航场景,例如物流配送、环境监测、灾害救援等。通过提高无人机在复杂环境中的导航能力,可以降低人工干预的需求,提高任务效率和安全性。此外,该方法还可以推广到其他机器人导航领域,例如自动驾驶、移动机器人等。
📄 摘要(原文)
Visual policy design is crucial for aerial navigation. However, state-of-the-art visual policies often overfit to a single track and their performance degrades when track geometry changes. We develop FalconGym 2.0, a photorealistic simulation framework built on Gaussian Splatting (GSplat) with an Edit API that programmatically generates diverse static and dynamic tracks in milliseconds. Leveraging FalconGym 2.0's editability, we propose a Performance-Guided Refinement (PGR) algorithm, which concentrates visual policy's training on challenging tracks while iteratively improving its performance. Across two case studies (fixed-wing UAVs and quadrotors) with distinct dynamics and environments, we show that a single visual policy trained with PGR in FalconGym 2.0 outperforms state-of-the-art baselines in generalization and robustness: it generalizes to three unseen tracks with 100% success without per-track retraining and maintains higher success rates under gate-pose perturbations. Finally, we demonstrate that the visual policy trained with PGR in FalconGym 2.0 can be zero-shot sim-to-real transferred to a quadrotor hardware, achieving a 98.6% success rate (69 / 70 gates) over 30 trials spanning two three-gate tracks and a moving-gate track.