Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

作者: Ismail Geles, Leonard Bauersfeld, Markus Wulfmeier, Davide Scaramuzza

分类: cs.RO, cs.AI, cs.LG, cs.MA

发布日期: 2026-05-21

备注: 12 pages (+4 supplementary). Website: https://rpg.ifi.uzh.ch/marl

💡 一句话要点

提出基于多智能体强化学习的四旋翼无人机竞速方法，实现超人级别的安全性和敏捷性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 无人机竞速 自主导航 自博弈 碰撞避免

📋 核心要点

现有单智能体方法在动态环境中表现不足，无法有效处理多智能体交互和碰撞避免。
采用多智能体强化学习，通过自博弈训练智能体，使其学习复杂的交互策略和预测行为。
实验表明，该方法在高速无人机竞速中超越人类冠军，并显著降低了碰撞率，实现安全的人机交互。

📝 摘要（中文）

现有的自主系统在孤立或模拟环境中表现出色，但在共享、动态的真实世界中仍然脆弱。这种失败源于物理应用中占主导地位的单智能体范式，该范式忽略其他参与者或将其视为环境噪声，从而阻碍了有效的协调。本文表明，多智能体强化学习为真实世界的交互提供了必要的安全保障。以高速四旋翼无人机竞速作为高风险试验平台，我们训练智能体在可变数量的赛手中导航复杂的空气动力学交互和战略机动。通过基于联盟的自博弈，智能体进化出复杂的预测行为，包括主动避碰、超车和处理多智能体物理交互，包括空气动力学下洗。我们的智能体在超过22米/秒的速度下，在多人比赛中优于冠军级人类飞行员，同时与最先进的单智能体基线相比，碰撞率降低了50%。至关重要的是，使用多样化的人工智能体进行训练能够零样本泛化到更安全的人机交互。这些结果表明，实现稳健的机器人共存之路不在于孤立的安全约束，而在于多智能体交互的严格要求。

🔬 方法详解

问题定义：现有无人机自主导航方法，特别是针对高速竞速场景，通常采用单智能体强化学习或传统控制算法。这些方法将其他无人机视为环境噪声，忽略了它们之间的复杂交互，导致在多智能体环境中容易发生碰撞，难以实现安全和高效的竞速。因此，需要一种能够有效处理多智能体交互，实现安全、敏捷竞速的自主导航方法。

核心思路：本文的核心思路是利用多智能体强化学习（MARL），通过让多个智能体在环境中进行自博弈训练，使它们能够学习到复杂的交互策略，包括预测其他智能体的行为、主动避碰、以及利用空气动力学效应等。这种方法能够让智能体更好地适应动态环境，从而实现更安全、更高效的竞速。

技术框架：该方法采用基于联盟的自博弈训练框架。具体来说，首先构建一个模拟竞速环境，其中包含多个无人机智能体。然后，使用强化学习算法（例如PPO）训练这些智能体，使它们能够学习到最优的控制策略。在训练过程中，智能体之间进行自博弈，不断提升自身的性能。为了提高训练效率和泛化能力，采用了课程学习策略，逐步增加训练的难度。

关键创新：该方法最重要的技术创新点在于将多智能体强化学习应用于高速无人机竞速，并成功地实现了超人级别的性能。与传统的单智能体方法相比，该方法能够更好地处理多智能体交互，从而实现更安全、更高效的竞速。此外，通过基于联盟的自博弈训练，智能体能够学习到更复杂的策略，包括预测其他智能体的行为和利用空气动力学效应。

关键设计：在训练过程中，采用了以下关键设计：1) 使用PPO算法进行强化学习训练；2) 设计了合适的奖励函数，鼓励智能体完成赛道并避免碰撞；3) 采用了课程学习策略，逐步增加训练的难度；4) 使用了循环神经网络（RNN）来处理时间序列数据，提高智能体的预测能力；5) 考虑了空气动力学效应，使智能体能够更好地利用气流。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在高速无人机竞速中超越了冠军级人类飞行员，在超过22米/秒的速度下实现了安全、敏捷的飞行。与最先进的单智能体基线相比，碰撞率降低了50%。此外，该方法还具有良好的泛化能力，能够零样本泛化到更安全的人机交互。

🎯 应用场景

该研究成果可应用于无人机竞速、物流配送、协同搜索救援等领域。通过多智能体强化学习，可以实现无人机集群的安全、高效协同，提高任务完成效率。此外，该方法还可以推广到其他多智能体系统，例如自动驾驶、机器人协作等，具有广阔的应用前景。

📄 摘要（原文）

Autonomous systems have achieved superhuman performance in isolation or simulation, yet they remain brittle in shared, dynamic real-world spaces. This failure stems from the dominant single-agent paradigm for physical applications, where other actors are ignored or treated as environmental noise, preventing effective coordination. Here we show that multi-agent reinforcement learning provides the essential safety scaffolding required for real-world interaction. Using high-speed quadrotor racing as a high-stakes testbed, we train agents to navigate complex aerodynamic interactions and strategic maneuvering with a variable number of racers. Through league-based self-play, agents evolve sophisticated anticipatory behaviors, including proactive collision avoidance, overtaking, and handling multi-agent physical interactions, including aerodynamic downwash. Our agents outperform a champion-level human pilot in multi-player races at speeds exceeding 22 m/s, while simultaneously reducing collision rates by 50 % compared to state-of-the-art single-agent baselines. Crucially, training with diverse artificial agents enables zero-shot generalization to safer human interaction. These results suggest that the path to robust robotic co-existence lies not in isolated safety constraints, but in the rigorous demands of multi-agent interaction. Multimedia materials are available at: https://rpg.ifi.uzh.ch/marl

Superhuman Safe and Agile Racing through Multi-Agent Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理