Auto-Multilift: Distributed Learning and Control for Cooperative Load Transportation With Quadrotors

📄 arXiv: 2406.04858v5 📥 PDF

作者: Bingheng Wang, Rui Huang, Lin Zhao

分类: cs.RO, eess.SY

发布日期: 2024-06-07 (更新: 2024-10-07)


💡 一句话要点

Auto-Multilift:提出基于深度学习的分布式多旋翼协同负载运输自适应控制框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 多旋翼协同运输 分布式控制 深度学习 模型预测控制 策略梯度算法

📋 核心要点

  1. 多旋翼协同运输的现有方法依赖手动调参,难以达到最优性能,且缺乏对复杂环境的适应性。
  2. Auto-Multilift利用深度神经网络建模MPC成本函数,并通过分布式策略梯度算法实现闭环自适应调整。
  3. 仿真结果表明,该方法在多旋翼数量扩展性上表现良好,并显著优于现有的开环MPC调参方法。

📝 摘要(中文)

多旋翼协同负载运输系统的运动控制和规划算法设计极具挑战,其复杂性源于动力学、避障、执行器限制和可扩展性等多方面因素。现有的优化和分布式方法虽然能有效应对这些约束和可扩展性问题,但通常需要大量手动调整,导致性能欠佳。本文提出Auto-Multilift,一种新颖的框架,可自动调整多旋翼协同负载运输系统的模型预测控制器(MPC)。我们使用深度神经网络(DNN)对MPC成本函数进行建模,从而能够快速在线适应各种场景。我们开发了一种分布式策略梯度算法,以闭环方式高效训练这些DNN。该算法的核心是分布式灵敏度传播,它充分利用了多旋翼协同负载运输系统中独特的动态耦合。它并行化了跨多旋翼的梯度计算,并专注于实际系统状态相对于关键MPC参数的灵敏度。大量的仿真结果表明,该方法对大量多旋翼具有良好的可扩展性。通过有效地从轨迹跟踪误差中学习自适应MPC,我们的方法优于最先进的开环MPC调整方法。它还在穿越多个狭窄槽时,擅长学习用于重新配置系统的自适应参考。

🔬 方法详解

问题定义:多旋翼协同负载运输需要精确的运动控制和规划,但现有方法如模型预测控制(MPC)需要大量手动调参,难以适应不同的负载和环境变化,导致性能受限。此外,传统方法难以有效利用多旋翼系统间的动态耦合关系,限制了系统的整体性能。

核心思路:Auto-Multilift的核心在于使用深度神经网络(DNN)来自动学习和调整MPC的成本函数参数。通过将MPC的性能指标(如轨迹跟踪误差)作为DNN的奖励信号,利用强化学习方法优化DNN的参数,从而实现MPC的自适应调整。这种方法避免了手动调参的繁琐过程,并能根据实际运行情况动态优化控制策略。

技术框架:Auto-Multilift框架主要包含以下几个模块:1) 基于DNN的MPC成本函数建模:使用DNN来表示MPC的成本函数,DNN的输入是系统状态,输出是成本函数参数。2) 分布式策略梯度算法:采用分布式策略梯度算法来训练DNN,每个多旋翼独立计算梯度,并通过通信进行参数同步。3) 分布式灵敏度传播:利用多旋翼系统间的动态耦合关系,设计分布式灵敏度传播算法,加速梯度计算。4) 闭环训练:在仿真环境中进行闭环训练,通过不断迭代优化DNN的参数,提高MPC的性能。

关键创新:该方法最重要的创新点在于将深度学习与分布式控制相结合,实现了多旋翼协同负载运输系统的自适应控制。与传统的基于优化的方法相比,该方法能够自动学习控制策略,无需手动调参,并能适应不同的负载和环境变化。此外,分布式灵敏度传播算法充分利用了多旋翼系统间的动态耦合关系,提高了训练效率。

关键设计:DNN的网络结构可以根据具体任务进行调整,例如可以使用多层感知机(MLP)或卷积神经网络(CNN)。损失函数通常采用轨迹跟踪误差的平方和,并加入正则化项以防止过拟合。分布式策略梯度算法采用Actor-Critic结构,Actor网络负责生成控制策略,Critic网络负责评估控制策略的价值。关键参数包括学习率、折扣因子、探索率等,需要根据具体情况进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Auto-Multilift方法在多旋翼数量扩展性上表现良好,能够支持大规模的多旋翼协同运输系统。与最先进的开环MPC调参方法相比,该方法能够显著提高轨迹跟踪精度,并能有效地适应不同的负载和环境变化。此外,该方法在穿越狭窄槽等复杂场景中表现出色,能够学习到有效的系统重构策略。

🎯 应用场景

该研究成果可应用于物流运输、建筑施工、灾害救援等领域。例如,在物流运输中,多旋翼协同运输系统可以用于快速、高效地运输货物;在建筑施工中,可以用于吊装大型构件;在灾害救援中,可以用于运送救援物资和人员。该技术具有广阔的应用前景和重要的实际价值,有望推动相关领域的发展。

📄 摘要(原文)

Designing motion control and planning algorithms for multilift systems remains challenging due to the complexities of dynamics, collision avoidance, actuator limits, and scalability. Existing methods that use optimization and distributed techniques effectively address these constraints and scalability issues. However, they often require substantial manual tuning, leading to suboptimal performance. This paper proposes Auto-Multilift, a novel framework that automates the tuning of model predictive controllers (MPCs) for multilift systems. We model the MPC cost functions with deep neural networks (DNNs), enabling fast online adaptation to various scenarios. We develop a distributed policy gradient algorithm to train these DNNs efficiently in a closed-loop manner. Central to our algorithm is distributed sensitivity propagation, which is built on fully exploiting the unique dynamic couplings within the multilift system. It parallelizes gradient computation across quadrotors and focuses on actual system state sensitivities relative to key MPC parameters. Extensive simulations demonstrate favorable scalability to a large number of quadrotors. Our method outperforms a state-of-the-art open-loop MPC tuning approach by effectively learning adaptive MPCs from trajectory tracking errors. It also excels in learning an adaptive reference for reconfiguring the system when traversing multiple narrow slots.