Model-based controller assisted domain randomization in deep reinforcement learning: application to nonlinear powertrain control

📄 arXiv: 2504.19715v1 📥 PDF

作者: Heisei Yonezawa, Ansei Yonezawa, Itsuro Kajiwara

分类: eess.SY, cs.AI, cs.LG

发布日期: 2025-04-28


💡 一句话要点

提出基于模型控制辅助的DRL域随机化方法,用于非线性动力总成控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 域随机化 模型控制 LSTM网络 鲁棒控制 非线性系统 动力总成控制

📋 核心要点

  1. 复杂机械系统存在非线性和不确定性,传统鲁棒控制方法难以有效应对,仿真到实际的迁移面临挑战。
  2. 提出基于域随机化的DRL方法,结合LSTM网络和模型控制,构建更鲁棒的控制系统。
  3. 通过动力总成有源阻尼的实际应用验证,表明该方法具有更高的泛化能力和鲁棒性。

📝 摘要(中文)

车辆动力总成等复杂机械系统固有地受到多种非线性和参数变化带来的不确定性的影响。建模和校准误差因此不可避免,使得控制系统从仿真到真实世界的迁移成为一个关键挑战。传统的鲁棒控制在处理某些类型的非线性和不确定性方面存在局限性,需要一种更实用的方法,能够全面补偿这些各种约束。本研究提出了一种使用深度强化学习(DRL)框架的新型鲁棒控制方法。关键策略在于基于域随机化的DRL、基于长短期记忆(LSTM)的Actor和Critic网络以及基于模型的控制(MBC)之间的协同作用。问题设置通过潜在马尔可夫决策过程(LMDP)建模,LMDP是一组vanilla MDP,用于受不确定性和非线性影响的受控系统。在LMDP中,环境模拟器的动态在训练期间被随机化,以提高控制系统对真实测试环境的鲁棒性。随机化增加了训练难度以及由此产生的控制系统的保守性;因此,通过同时使用基于标称系统模型的基于模型的控制器来辅助进展。与传统的基于DRL的控制相比,所提出的控制器设计更智能,因为我们可以通过更紧凑的神经网络架构和更少量的训练数据来实现高水平的泛化能力。所提出的方法通过实际应用于具有非线性和参数变化的复杂动力总成系统的有源阻尼来验证。对比测试表明了所提出方法的高鲁棒性。

🔬 方法详解

问题定义:论文旨在解决复杂机械系统(如车辆动力总成)中存在的非线性和不确定性问题,这些问题导致控制系统难以从仿真环境迁移到真实环境。传统鲁棒控制方法在处理这些复杂问题时存在局限性,需要更有效的方法来提升控制系统的鲁棒性和泛化能力。

核心思路:论文的核心思路是结合深度强化学习(DRL)的强大学习能力、域随机化技术以及模型控制的先验知识,构建一个能够适应各种不确定性和非线性的鲁棒控制系统。通过域随机化,使DRL智能体在训练过程中接触到各种不同的环境参数,从而提高其在真实环境中的泛化能力。同时,利用模型控制提供先验知识,加速训练过程并降低训练难度。

技术框架:整体框架基于潜在马尔可夫决策过程(LMDP),将不确定性和非线性建模为一组不同的MDP。训练过程包括以下几个主要模块:1) 基于域随机化的环境模拟器,用于生成各种不同的训练环境;2) 基于LSTM的Actor和Critic网络,用于学习控制策略和评估策略;3) 基于标称系统模型的模型控制器,用于辅助DRL智能体的训练。

关键创新:论文的关键创新在于将域随机化、LSTM网络和模型控制相结合,提出了一种新型的鲁棒控制方法。与传统的DRL方法相比,该方法能够利用模型控制的先验知识,减少训练数据量,并提高控制系统的泛化能力。此外,使用LSTM网络可以更好地处理时序依赖关系,从而提高控制系统的性能。

关键设计:论文中,域随机化的具体实现方式是随机改变环境模拟器中的参数,例如动力总成系统的惯量、阻尼系数等。LSTM网络的结构包括输入层、LSTM层和输出层,其中LSTM层的隐藏单元数量是一个重要的超参数。损失函数的设计需要考虑控制系统的性能指标,例如跟踪误差、能量消耗等。模型控制器的设计基于标称系统模型,可以使用PID控制或其他经典的控制方法。

📊 实验亮点

实验结果表明,所提出的方法在动力总成有源阻尼控制任务中表现出很高的鲁棒性。与传统的DRL方法相比,该方法可以使用更少的训练数据和更紧凑的神经网络结构,同时实现更高的控制性能。具体而言,该方法能够有效地抑制动力总成系统的振动,降低能量消耗,并提高系统的稳定性。

🎯 应用场景

该研究成果可广泛应用于各种复杂机械系统的控制领域,例如车辆动力总成控制、机器人控制、航空航天控制等。通过提高控制系统的鲁棒性和泛化能力,可以降低系统开发成本,提高系统性能,并实现更安全可靠的运行。未来,该方法有望应用于自动驾驶、智能制造等领域。

📄 摘要(原文)

Complex mechanical systems such as vehicle powertrains are inherently subject to multiple nonlinearities and uncertainties arising from parametric variations. Modeling and calibration errors are therefore unavoidable, making the transfer of control systems from simulation to real-world systems a critical challenge. Traditional robust controls have limitations in handling certain types of nonlinearities and uncertainties, requiring a more practical approach capable of comprehensively compensating for these various constraints. This study proposes a new robust control approach using the framework of deep reinforcement learning (DRL). The key strategy lies in the synergy among domain randomization-based DRL, long short-term memory (LSTM)-based actor and critic networks, and model-based control (MBC). The problem setup is modeled via the latent Markov decision process (LMDP), a set of vanilla MDPs, for a controlled system subject to uncertainties and nonlinearities. In LMDP, the dynamics of an environment simulator is randomized during training to improve the robustness of the control system to real testing environments. The randomization increases training difficulties as well as conservativeness of the resultant control system; therefore, progress is assisted by concurrent use of a model-based controller based on a nominal system model. Compared to traditional DRL-based controls, the proposed controller design is smarter in that we can achieve a high level of generalization ability with a more compact neural network architecture and a smaller amount of training data. The proposed approach is verified via practical application to active damping for a complex powertrain system with nonlinearities and parametric variations. Comparative tests demonstrate the high robustness of the proposed approach.