A Plug-and-Play Fully On-the-Job Real-Time Reinforcement Learning Algorithm for a Direct-Drive Tandem-Wing Experiment Platforms Under Multiple Random Operating Conditions

📄 arXiv: 2410.15554v2 📥 PDF

作者: Zhang Minghao, Song Bifeng, Yang Xiaojun, Wang Liang

分类: cs.LG, cs.AI, cs.RO

发布日期: 2024-10-21 (更新: 2024-12-20)

备注: To prevent potential misunderstandings or negative impacts on the community, I am requesting the withdrawal of my submission due to the discovery of critical errors and major flaws in the work. Recent discussions with researchers in the field have identified significant defects that compromise the validity of the results


💡 一句话要点

针对串联翼飞行器,提出一种即插即用、全流程实时强化学习算法CRL2E,解决多重随机工况下的运动控制难题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 串联翼飞行器 运动控制 实时控制 物理规则 策略组合 扰动模块

📋 核心要点

  1. 串联翼飞行器在复杂工况下存在非线性气动干扰,传统控制方法难以保证稳定性和精度。
  2. CRL2E算法融合物理规则的策略组合器和扰动模块,并优化轻量级网络,实现实时强化学习控制。
  3. 实验表明,CRL2E在多种工况下均优于SAC、PPO、TD3和CRL等算法,收敛速度更快,跟踪精度更高。

📝 摘要(中文)

针对串联翼仿生系统产生的非线性且不稳定的气动干扰给运动控制带来的巨大挑战,尤其是在多重随机工况下,本文提出了一种Concerto强化学习扩展算法(CRL2E)。该算法是一种即插即用、全流程实时强化学习算法,它结合了一种新颖的受物理启发规则的策略组合器策略,一个扰动模块以及一个为实时控制优化的轻量级网络。为了验证模块设计的性能和合理性,在六种具有挑战性的工况下进行了实验,并比较了七种不同的算法。结果表明,CRL2E算法在最初的500步内实现了安全稳定的训练,与软演员-评论家(SAC)、近端策略优化(PPO)和双延迟深度确定性策略梯度(TD3)算法相比,跟踪精度提高了14到66倍。此外,CRL2E显著提高了在各种随机工况下的性能,与Concerto强化学习(CRL)算法相比,跟踪精度提高了8.3%到60.4%。CRL2E的收敛速度比仅具有组合器扰动的CRL算法快36.11%到57.64%,比同时引入组合器扰动和时间交错能力扰动的CRL算法快43.52%到65.85%,尤其是在标准CRL难以收敛的条件下。硬件测试表明,优化的轻量级网络结构在权重加载和平均推理时间方面表现出色,满足实时控制要求。

🔬 方法详解

问题定义:本文旨在解决串联翼飞行器在多种随机工况下,由于非线性气动干扰导致的运动控制难题。现有方法,如传统的PID控制,难以适应复杂的气动环境变化。而现有的强化学习算法,如SAC、PPO、TD3等,在实时性和收敛速度上存在不足,难以直接应用于实际的飞行控制系统。

核心思路:CRL2E算法的核心思路是将物理知识融入强化学习策略中,利用物理规则指导策略的探索和学习,从而提高算法的收敛速度和稳定性。同时,通过扰动模块增加策略的多样性,避免陷入局部最优。此外,针对实时控制的需求,对网络结构进行优化,降低计算复杂度。

技术框架:CRL2E算法的整体框架包括以下几个主要模块:1) 环境交互模块:与串联翼飞行器实验平台进行交互,获取状态信息和执行动作。2) 策略网络:基于轻量级神经网络,输出控制策略。3) 物理规则策略组合器:根据预定义的物理规则,对策略网络的输出进行修正和组合。4) 扰动模块:对策略网络的输出进行随机扰动,增加策略的多样性。5) 奖励函数:根据飞行器的状态和目标,计算奖励值,用于指导策略的学习。6) 优化器:使用Adam优化器更新策略网络的参数。

关键创新:CRL2E算法的关键创新在于:1) 提出了物理规则策略组合器,将物理知识融入强化学习策略中,提高了算法的收敛速度和稳定性。2) 设计了扰动模块,增加策略的多样性,避免陷入局部最优。3) 优化了网络结构,降低了计算复杂度,满足实时控制的需求。与现有方法的本质区别在于,CRL2E算法更加注重利用先验知识,并针对实际应用场景进行了优化。

关键设计:在物理规则策略组合器中,根据串联翼飞行器的气动特性,预定义了一系列物理规则,例如,限制控制舵面的最大偏转角度,避免出现失速现象。在扰动模块中,采用高斯噪声对策略网络的输出进行扰动,噪声的方差根据训练的进度进行调整。在网络结构方面,采用了较少的网络层数和神经元数量,并使用了ReLU激活函数,以降低计算复杂度。

📊 实验亮点

实验结果表明,CRL2E算法在六种具有挑战性的工况下均优于SAC、PPO、TD3和CRL等算法。在最初的500步内,CRL2E实现了安全稳定的训练,跟踪精度提高了14到66倍(相比SAC、PPO、TD3)。与CRL算法相比,CRL2E在各种随机工况下的跟踪精度提高了8.3%到60.4%,收敛速度提高了36.11%到65.85%。

🎯 应用场景

该研究成果可应用于无人机、飞行机器人等领域的运动控制,尤其是在复杂、不确定的环境中。通过将物理知识融入强化学习算法,可以提高控制系统的鲁棒性和适应性。未来,该方法有望推广到其他类型的机器人控制问题,例如水下机器人、移动机器人等。

📄 摘要(原文)

The nonlinear and unstable aerodynamic interference generated by the tandem wings of such biomimetic systems poses substantial challenges for motion control, especially under multiple random operating conditions. To address these challenges, the Concerto Reinforcement Learning Extension (CRL2E) algorithm has been developed. This plug-and-play, fully on-the-job, real-time reinforcement learning algorithm incorporates a novel Physics-Inspired Rule-Based Policy Composer Strategy with a Perturbation Module alongside a lightweight network optimized for real-time control. To validate the performance and the rationality of the module design, experiments were conducted under six challenging operating conditions, comparing seven different algorithms. The results demonstrate that the CRL2E algorithm achieves safe and stable training within the first 500 steps, improving tracking accuracy by 14 to 66 times compared to the Soft Actor-Critic, Proximal Policy Optimization, and Twin Delayed Deep Deterministic Policy Gradient algorithms. Additionally, CRL2E significantly enhances performance under various random operating conditions, with improvements in tracking accuracy ranging from 8.3% to 60.4% compared to the Concerto Reinforcement Learning (CRL) algorithm. The convergence speed of CRL2E is 36.11% to 57.64% faster than the CRL algorithm with only the Composer Perturbation and 43.52% to 65.85% faster than the CRL algorithm when both the Composer Perturbation and Time-Interleaved Capability Perturbation are introduced, especially in conditions where the standard CRL struggles to converge. Hardware tests indicate that the optimized lightweight network structure excels in weight loading and average inference time, meeting real-time control requirements.