Hovering Flight of Soft-Actuated Insect-Scale Micro Aerial Vehicles using Deep Reinforcement Learning
作者: Yi-Hsuan Hsiao, Wei-Tung Chen, Yun-Sheng Chang, Pulkit Agrawal, YuFeng Chen
分类: cs.RO, cs.LG, eess.SY
发布日期: 2025-02-17
备注: 7 pages, 7 figures, accepted to 2025 IEEE International Conference on Soft Robotics (RoboSoft)
💡 一句话要点
提出基于深度强化学习的软驱动昆虫级微型飞行器悬停控制方案,解决系统延迟和不确定性问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 昆虫级飞行器 软驱动 行为克隆 近端策略优化 悬停控制 系统延迟
📋 核心要点
- 昆虫级微型飞行器控制面临快速动力学、系统延迟、模型不确定性和外部干扰等挑战,传统控制方法难以兼顾鲁棒性和计算效率。
- 论文提出一种基于深度强化学习的控制器,通过改进的行为克隆初始化网络,并使用近端策略优化进行微调,以应对系统延迟和不确定性。
- 实验结果表明,该控制器在两种不同重量的昆虫级飞行器上实现了稳定的零样本悬停飞行,横向和高度方向的误差均较低。
📝 摘要(中文)
本文针对软驱动昆虫级微型飞行器(IMAVs)设计鲁棒且计算高效的控制器所面临的挑战,提出了一种基于深度强化学习(RL)的控制器,以解决系统延迟和不确定性问题。为了初始化该神经网络(NN)控制器,我们提出了一种改进的行为克隆(BC)方法,该方法采用状态-动作重匹配来解决延迟问题,并采用领域随机化的专家演示来解决不确定性问题。然后,我们应用近端策略优化(PPO)在RL期间微调策略,从而提高性能并平滑命令。在仿真中,我们改进的BC方法显著提高了平均奖励,而使用PPO的RL则改善了飞行质量并减少了命令波动。我们将此控制器部署在两种不同的昆虫级飞行机器人上,它们的重量分别为720 mg和850 mg。这些机器人展示了多次成功的零样本悬停飞行,横向方向的均方根误差为1.34厘米,高度方向的均方根误差为0.05厘米,标志着首次在软驱动IMAV上实现基于端到端深度RL的飞行。
🔬 方法详解
问题定义:论文旨在解决软驱动昆虫级微型飞行器(IMAVs)的稳定悬停控制问题。由于IMAVs尺寸小、重量轻,其动力学特性非常复杂,存在严重的系统延迟、模型不确定性和外部干扰。传统的控制方法难以同时满足鲁棒性和计算效率的要求,尤其是在实际飞行环境中。
核心思路:论文的核心思路是利用深度强化学习(RL)的强大学习能力,直接从飞行数据中学习控制策略,从而避免对复杂动力学模型的精确建模。通过改进的行为克隆(BC)方法初始化RL策略,并使用近端策略优化(PPO)进行微调,可以有效地应对系统延迟和不确定性,提高控制器的鲁棒性和适应性。
技术框架:整体框架包括三个主要阶段:1) 改进的行为克隆(BC)初始化:使用领域随机化的专家演示数据,并通过状态-动作重匹配来解决系统延迟问题。2) 近端策略优化(PPO)微调:利用PPO算法进一步优化控制策略,提高飞行质量并减少命令波动。3) 实际飞行测试:将训练好的控制器部署到实际的昆虫级飞行器上进行零样本悬停飞行测试。
关键创新:论文的关键创新在于将改进的行为克隆与PPO相结合,用于训练软驱动IMAVs的悬停控制器。改进的BC方法通过状态-动作重匹配,有效地解决了系统延迟问题,而领域随机化的专家演示则提高了控制器的泛化能力。与传统的控制方法相比,该方法无需精确的动力学模型,可以直接从数据中学习控制策略。
关键设计:在改进的BC阶段,状态-动作重匹配的关键在于找到与当前状态相对应的延迟后的动作。领域随机化通过在仿真环境中随机改变飞行器的质量、摩擦系数等参数,来增加训练数据的多样性,提高控制器的鲁棒性。PPO算法使用裁剪的代理目标函数,以限制策略更新的幅度,保证训练的稳定性。具体的网络结构和超参数设置在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该控制器在两种不同重量(720 mg和850 mg)的昆虫级飞行器上实现了成功的零样本悬停飞行。最长的悬停时间达到了50秒,横向方向的均方根误差为1.34厘米,高度方向的均方根误差为0.05厘米。与基线BC方法相比,改进的BC方法显著提高了平均奖励,表明其在解决系统延迟问题方面的有效性。这些结果标志着首次在软驱动IMAV上实现基于端到端深度RL的飞行。
🎯 应用场景
该研究成果可应用于微型机器人的自主导航、环境监测、搜索救援等领域。软驱动IMAVs具有体积小、重量轻、安全性高等优点,可以在狭小空间或复杂环境中执行任务。未来,该技术有望应用于医疗、农业、工业检测等领域,例如在人体内进行微创手术,在农田中进行精准喷洒,在管道中进行缺陷检测等。
📄 摘要(原文)
Soft-actuated insect-scale micro aerial vehicles (IMAVs) pose unique challenges for designing robust and computationally efficient controllers. At the millimeter scale, fast robot dynamics ($\sim$ms), together with system delay, model uncertainty, and external disturbances significantly affect flight performances. Here, we design a deep reinforcement learning (RL) controller that addresses system delay and uncertainties. To initialize this neural network (NN) controller, we propose a modified behavior cloning (BC) approach with state-action re-matching to account for delay and domain-randomized expert demonstration to tackle uncertainty. Then we apply proximal policy optimization (PPO) to fine-tune the policy during RL, enhancing performance and smoothing commands. In simulations, our modified BC substantially increases the mean reward compared to baseline BC; and RL with PPO improves flight quality and reduces command fluctuations. We deploy this controller on two different insect-scale aerial robots that weigh 720 mg and 850 mg, respectively. The robots demonstrate multiple successful zero-shot hovering flights, with the longest lasting 50 seconds and root-mean-square errors of 1.34 cm in lateral direction and 0.05 cm in altitude, marking the first end-to-end deep RL-based flight on soft-driven IMAVs.