E2E-Fly: An Integrated Training-to-Deployment System for End-to-End Quadrotor Autonomy

📄 arXiv: 2604.12916v1 📥 PDF

作者: Fangyu Sun, Fanxing Li, Linzuo Zhang, Yu Hu, Renbiao Jin, Shuyu Wu, Wenxian Yu, Danping Zou

分类: cs.RO

发布日期: 2026-04-14


💡 一句话要点

E2E-Fly:用于四旋翼无人机端到端自主控制的集成式训练-部署系统

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 四旋翼无人机 端到端控制 强化学习 可微物理 Sim-to-Real 域随机化 系统辨识

📋 核心要点

  1. 现有方法在视觉渲染效率、物理建模精度、未建模传感器差异以及缺乏将可微物理学习集成到端到端训练的统一平台等方面存在不足。
  2. E2E-Fly框架通过集成高性能仿真器、结构化奖励设计、两阶段验证策略和全面的sim-to-real对齐方法,实现了四旋翼无人机策略从仿真到现实的零样本迁移。
  3. 该框架成功训练了六个端到端控制任务,并在真实四旋翼平台上进行了部署,验证了其有效性,为四旋翼自主控制研究提供了一个完整的解决方案。

📝 摘要(中文)

本文提出E2E-Fly,一个集成的框架,包含敏捷四旋翼平台和全栈训练、验证和部署工作流程,旨在解决学习型四旋翼策略从仿真到现实的迁移难题。该框架包含高性能仿真器,支持可微物理学习和强化学习,以及针对常见四旋翼任务的结构化奖励设计。引入了两阶段验证策略,包括sim-to-sim迁移和硬件在环测试。通过专用低级控制接口和全面的sim-to-real对齐方法(包括系统辨识、域随机化、延迟补偿和噪声建模),将策略部署到两个物理四旋翼平台上。据我们所知,这是第一个系统地将可微物理学习与四旋翼的训练、验证和实际部署统一起来的工作。最后,我们展示了该框架在训练六个端到端控制任务并在现实世界中部署它们的有效性。

🔬 方法详解

问题定义:现有基于学习的四旋翼控制策略在从仿真环境迁移到真实环境时面临诸多挑战,包括仿真环境与真实环境的差异(如视觉渲染、物理建模、传感器噪声等),以及缺乏一个统一的平台来支持端到端的训练和部署。这些问题导致训练出的策略难以直接应用于真实世界,限制了四旋翼自主控制的实际应用。

核心思路:E2E-Fly的核心思路是构建一个集成的训练-验证-部署系统,通过可微物理学习、域随机化、系统辨识等技术手段,尽可能缩小仿真环境与真实环境之间的差距,从而实现策略的零样本迁移。同时,该系统提供了一个统一的平台,方便研究人员进行端到端的训练和部署。

技术框架:E2E-Fly框架主要包含三个部分:训练框架、验证框架和部署框架。训练框架包括一个高性能仿真器,支持可微物理学习和强化学习,以及针对特定任务的奖励函数设计。验证框架采用两阶段策略,首先进行sim-to-sim迁移测试,然后在硬件在环测试中验证策略的性能。部署框架包括一个低级控制接口和sim-to-real对齐方法,用于将策略部署到真实四旋翼平台上。

关键创新:E2E-Fly的关键创新在于其系统性地将可微物理学习与四旋翼的训练、验证和实际部署统一起来。通过可微物理学习,可以优化仿真环境的参数,使其更接近真实环境。同时,该框架提供了一个完整的sim-to-real迁移流程,包括系统辨识、域随机化、延迟补偿和噪声建模,从而提高了策略在真实环境中的鲁棒性。

关键设计:在训练框架中,奖励函数的设计至关重要,需要根据具体任务进行调整。在sim-to-real对齐方面,系统辨识用于估计四旋翼的动力学参数,域随机化用于增加训练数据的多样性,延迟补偿用于解决控制延迟问题,噪声建模用于模拟传感器噪声。这些技术细节共同保证了策略在真实环境中的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

E2E-Fly框架成功地训练了六个端到端控制任务,并在真实四旋翼平台上进行了部署,包括悬停、轨迹跟踪、避障等。实验结果表明,通过该框架训练的策略在真实环境中具有良好的鲁棒性和泛化能力,实现了零样本迁移,无需额外的真实环境训练。

🎯 应用场景

E2E-Fly框架可应用于各种四旋翼无人机自主控制任务,如自主导航、目标跟踪、编队飞行等。该框架的实际价值在于降低了学习型策略从仿真到现实的迁移成本,加速了四旋翼无人机在物流、安防、巡检等领域的应用。未来,该框架可以进一步扩展到其他类型的机器人平台,实现更广泛的自主控制应用。

📄 摘要(原文)

Training and transferring learning-based policies for quadrotors from simulation to reality remains challenging due to inefficient visual rendering, physical modeling inaccuracies, unmodeled sensor discrepancies, and the absence of a unified platform integrating differentiable physics learning into end-to-end training. While recent work has demonstrated various end-to-end quadrotor control tasks, few systems provide a systematic, zero-shot transfer pipeline, hindering reproducibility and real-world deployment. To bridge this gap, we introduce E2E-Fly, an integrated framework featuring an agile quadrotor platform coupled with a full-stack training, validation, and deployment workflow. The training framework incorporates a high-performance simulator with support for differentiable physics learning and reinforcement learning, alongside structured reward design tailored to common quadrotor tasks. We further introduce a two-stage validation strategy using sim-to-sim transfer and hardware-in-the-loop testing, and deploy policies onto two physical quadrotor platforms via a dedicated low-level control interface and a comprehensive sim-to-real alignment methodology, encompassing system identification, domain randomization, latency compensation, and noise modeling. To the best of our knowledge, this is the first work to systematically unify differentiable physical learning with training, validation, and real-world deployment for quadrotors. Finally, we demonstrate the effectiveness of our framework for training six end-to-end control tasks and deploy them in the real world.