Adaptive Terminal Sliding Mode Control Using Deep Reinforcement Learning for Zero-Force Control of Exoskeleton Robot Systems

📄 arXiv: 2407.18309v1 📥 PDF

作者: Morteza Mirzaee, Reza Kazemi

分类: cs.RO, eess.SY

发布日期: 2024-07-25


💡 一句话要点

提出基于深度强化学习的自适应终端滑模控制,用于外骨骼机器人零力控制

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 外骨骼机器人 零力控制 深度强化学习 自适应控制 终端滑模控制

📋 核心要点

  1. 现有外骨骼机器人的控制方法难以同时保证快速响应、高精度和对不确定性的鲁棒性。
  2. 提出一种基于深度强化学习的自适应终端滑模控制方法,利用PPO算法实时调整控制器参数,提高适应性。
  3. 数值模拟结果表明,该方法在零力控制任务中表现出优越的性能,能够有效应对系统不确定性和干扰。

📝 摘要(中文)

本文提出了一种用于上肢外骨骼机器人的新型零力控制方法,该方法可应用于康复、辅助和增强人体体能等多种场景。所提出的控制方法采用自适应积分终端滑模(AITSM)控制器,结合指数趋近律和近端策略优化(PPO)算法,后者是一种深度强化学习(DRL)方法。PPO系统融合了注意力机制和长短期记忆(LSTM)神经网络,使控制器能够选择性地关注相关的系统状态,适应不断变化的行为,并捕获长期依赖关系。该控制器旨在管理具有零力的5自由度上肢外骨骼机器人,即使在系统不确定性的情况下也能正常工作。控制器使用积分终端滑模面,以确保在有限时间内收敛到期望状态,这对于需要快速响应的应用至关重要。它还包括一个指数切换控制项,以减少颤振并提高系统精度。控制器的适应性由PPO系统提供,允许基于系统反馈进行实时参数调整,从而使控制器具有鲁棒性,并能够处理可能影响外骨骼性能的不确定性和干扰。通过数值模拟以及与现有控制方法的比较,证实了所提出的控制方法的有效性和优越性。

🔬 方法详解

问题定义:外骨骼机器人的零力控制旨在使机器人与人体之间没有相互作用力,从而实现舒适和安全的辅助或康复。然而,外骨骼系统存在模型不确定性、外部干扰以及人体运动的非线性等问题,传统的控制方法难以同时保证快速收敛、高精度和鲁棒性。

核心思路:本文的核心思路是将自适应终端滑模控制(AITSM)与深度强化学习(DRL)相结合。AITSM保证了有限时间收敛和高精度,而DRL则用于实时调整AITSM控制器的参数,使其能够适应系统的不确定性和干扰。通过这种方式,控制器可以根据系统反馈动态地优化控制策略,从而提高整体性能。

技术框架:该控制系统的整体架构包括以下几个主要模块:1) 外骨骼机器人系统;2) AITSM控制器,负责生成控制力矩;3) PPO智能体,基于系统状态和奖励信号调整AITSM控制器的参数;4) 环境模型,用于模拟外骨骼机器人的动力学行为。PPO智能体通过与环境交互,不断学习和优化控制策略。

关键创新:该方法最重要的技术创新点在于将深度强化学习(特别是PPO算法)引入到终端滑模控制器的参数调整中。传统的自适应滑模控制通常依赖于预定义的自适应律,而本文利用PPO算法学习最优的自适应策略,从而能够更好地应对复杂和不确定的系统环境。此外,注意力机制和LSTM网络的引入,使得PPO智能体能够选择性地关注相关系统状态,并捕获长期依赖关系。

关键设计:AITSM控制器采用积分终端滑模面,以保证有限时间收敛。指数趋近律用于减小颤振。PPO智能体的网络结构包括注意力机制和LSTM层,用于提取系统状态的特征。奖励函数的设计旨在鼓励零力控制,并惩罚大的控制力矩和误差。PPO算法采用近端策略优化方法,以保证学习的稳定性。

📊 实验亮点

数值模拟结果表明,所提出的控制方法在零力控制任务中表现出优越的性能。与传统的滑模控制方法相比,该方法能够更快地收敛到期望状态,并具有更高的控制精度。此外,该方法对系统不确定性和外部干扰具有较强的鲁棒性,能够在各种工况下保持稳定的性能。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于上肢外骨骼机器人的康复训练、辅助生活和增强人体体能等领域。通过实现精确的零力控制,可以提高外骨骼机器人的舒适性和安全性,并为用户提供个性化的辅助或康复方案。此外,该方法还可以推广到其他类型的机器人系统,例如下肢外骨骼机器人和工业机器人。

📄 摘要(原文)

This paper introduces a novel zero-force control method for upper-limb exoskeleton robots, which are used in a variety of applications including rehabilitation, assistance, and human physical capability enhancement. The proposed control method employs an Adaptive Integral Terminal Sliding Mode (AITSM) controller, combined with an exponential reaching law and Proximal Policy Optimization (PPO), a type of Deep Reinforcement Learning (DRL). The PPO system incorporates an attention mechanism and Long Short-Term Memory (LSTM) neural networks, enabling the controller to selectively focus on relevant system states, adapt to changing behavior, and capture long-term dependencies. This controller is designed to manage a 5-DOF upper-limb exoskeleton robot with zero force, even amidst system uncertainties. The controller uses an integral terminal sliding surface to ensure finite-time convergence to the desired state, a crucial feature for applications requiring quick responses. It also includes an exponential switching control term to reduce chattering and improve system accuracy. The controller's adaptability, facilitated by the PPO system, allows real-time parameter adjustments based on system feedback, making the controller robust and capable of dealing with uncertainties and disturbances that could affect the performance of the exoskeleton. The proposed control method's effectiveness and superiority are confirmed through numerical simulations and comparisons with existing control methods.