Efficient Knowledge Transfer for Jump-Starting Control Policy Learning of Multirotors through Physics-Aware Neural Architectures

作者: Welf Rehberg, Mihir Kulkarni, Philipp Weiss, Kostas Alexis

分类: cs.RO

发布日期: 2026-02-17

备注: 8 pages. Accepted to IEEE Robotics and Automation Letters

💡 一句话要点

提出基于物理感知的神经架构，加速多旋翼飞行器控制策略的跨平台迁移学习。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱七：动作重定向 (Motion Retargeting)

关键词: 多旋翼飞行器 强化学习 知识迁移 控制策略 物理感知

📋 核心要点

多旋翼飞行器控制策略训练耗时，跨平台迁移学习是提升效率的关键，但现有方法难以有效利用不同构型飞行器的知识。
论文提出一种物理感知的神经控制架构，结合强化学习控制器和监督控制分配网络，实现策略复用和跨平台迁移。
实验表明，该方法在多种四旋翼和六旋翼设计中，相比从头训练，平均节省高达73.5%的环境交互次数。

📝 摘要（中文）

本研究致力于通过跨平台知识迁移，高效训练机器人控制策略，尤其关注利用从相似系统训练中获得的知识来加速策略训练。论文提出了一种基于库的初始化方案，能够实现多旋翼飞行器配置间的有效知识迁移。该方案利用一种物理感知的神经控制架构，结合了基于强化学习的控制器和监督控制分配网络，从而能够复用先前训练的策略。为此，论文采用了一种基于策略评估的相似性度量方法，从库中识别适合初始化的策略。实验证明，该度量方法与达到目标性能所需的环境交互次数的减少相关，因此适合用于初始化。大量的仿真和真实实验证实，该控制架构实现了最先进的控制性能，并且初始化方案平均节省了高达73.5%的环境交互（与从头开始训练策略相比），为强化学习中有效的跨平台迁移铺平了道路。

🔬 方法详解

问题定义：现有方法在多旋翼飞行器控制策略学习中，尤其是跨不同构型（例如，四旋翼到六旋翼）的知识迁移时，存在效率低下的问题。从头开始训练每个新构型的飞行器控制策略需要大量的环境交互，耗费大量时间和计算资源。现有方法难以有效利用已有的控制策略知识，导致重复学习。

核心思路：论文的核心思路是利用物理感知的神经架构，将控制策略学习分解为两个模块：一个基于强化学习的控制器和一个监督控制分配网络。通过这种解耦，可以更容易地复用和迁移已训练的控制器，并根据新的飞行器构型调整控制分配网络。此外，论文提出了一种基于策略评估的相似性度量方法，用于从策略库中选择合适的策略进行初始化，从而进一步加速学习过程。

技术框架：整体框架包含以下几个主要模块：1) 策略库：存储了预先训练好的各种多旋翼飞行器控制策略。2) 相似性度量：使用基于策略评估的相似性度量方法，评估策略库中策略与目标飞行器构型的相似度。3) 物理感知的神经控制架构：包含一个强化学习控制器和一个监督控制分配网络。强化学习控制器负责生成期望的力矩，控制分配网络负责将期望力矩转换为各个电机的转速。4) 初始化方案：根据相似性度量结果，选择合适的策略初始化强化学习控制器，并训练控制分配网络。

关键创新：论文的关键创新在于：1) 物理感知的神经架构：通过将控制策略解耦为强化学习控制器和监督控制分配网络，实现了更好的可迁移性。2) 基于策略评估的相似性度量：提出了一种有效的相似性度量方法，用于从策略库中选择合适的策略进行初始化，加速学习过程。3) 跨平台迁移学习：成功实现了在不同构型的多旋翼飞行器之间进行知识迁移，显著提高了控制策略学习的效率。

关键设计：1) 强化学习控制器：使用近端策略优化（PPO）算法进行训练，奖励函数的设计考虑了位置跟踪误差、速度跟踪误差和姿态跟踪误差。2) 监督控制分配网络：使用多层感知机（MLP）进行建模，损失函数为期望力矩与实际力矩之间的均方误差。3) 相似性度量：通过评估策略在目标飞行器构型上的性能（例如，跟踪误差），来衡量策略的相似度。选择相似度最高的策略作为初始策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在多种四旋翼和六旋翼设计中，相比从头训练，平均节省高达73.5%的环境交互次数。在真实实验中，该方法也表现出良好的性能，验证了其在实际应用中的可行性。该方法在控制性能方面也达到了最先进水平。

🎯 应用场景

该研究成果可广泛应用于多旋翼飞行器的快速部署和控制策略优化。例如，在开发新型无人机时，可以利用已有的控制策略知识进行快速迁移学习，缩短开发周期。此外，该方法还可以应用于集群无人机控制、自主导航和复杂环境下的飞行控制等领域，具有重要的实际应用价值。

📄 摘要（原文）

Efficiently training control policies for robots is a major challenge that can greatly benefit from utilizing knowledge gained from training similar systems through cross-embodiment knowledge transfer. In this work, we focus on accelerating policy training using a library-based initialization scheme that enables effective knowledge transfer across multirotor configurations. By leveraging a physics-aware neural control architecture that combines a reinforcement learning-based controller and a supervised control allocation network, we enable the reuse of previously trained policies. To this end, we utilize a policy evaluation-based similarity measure that identifies suitable policies for initialization from a library. We demonstrate that this measure correlates with the reduction in environment interactions needed to reach target performance and is therefore suited for initialization. Extensive simulation and real-world experiments confirm that our control architecture achieves state-of-the-art control performance, and that our initialization scheme saves on average up to $73.5\%$ of environment interactions (compared to training a policy from scratch) across diverse quadrotor and hexarotor designs, paving the way for efficient cross-embodiment transfer in reinforcement learning.

Efficient Knowledge Transfer for Jump-Starting Control Policy Learning of Multirotors through Physics-Aware Neural Architectures

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理