A nonlinear real time capable motion cueing algorithm based on deep reinforcement learning

📄 arXiv: 2503.10419v3 📥 PDF

作者: Hendrik Scheidel, Camilo Gonzalez, Houshyar Asadi, Tobias Bellmann, Andreas Seefried, Shady Mohamed, Saeid Nahavandi

分类: eess.SY, cs.RO

发布日期: 2025-03-13 (更新: 2025-04-03)


💡 一句话要点

提出基于深度强化学习的非线性运动提示算法,用于实时运动模拟。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 运动提示算法 运动模拟 非线性控制 机器人控制 实时控制 近端策略优化

📋 核心要点

  1. 传统运动提示算法难以兼顾运动模拟平台非线性特性和实时性需求,限制了其在高精度运动模拟中的应用。
  2. 论文提出一种基于深度强化学习的运动提示算法,直接学习非线性运动学模型,无需简化即可处理复杂约束。
  3. 实验表明,该算法在6自由度运动模拟中表现出与现有算法相当的性能,并满足实时性要求,具有实际应用潜力。

📝 摘要(中文)

在运动模拟中,运动提示算法用于运动模拟器平台的轨迹规划,由于工作空间限制,无法直接重现参考轨迹。运动消除等策略对于将平台返回到中心位置至关重要。对于具有高度非线性工作空间的串行机器人MSP,最大限度地利用MSP的运动学和动力学能力至关重要。传统方法(包括经典消除滤波和线性模型预测控制)未能考虑平台特定的非线性特性,而非线性模型预测控制虽然全面,但计算需求高,阻碍了实时、飞行员在环应用,除非进一步简化。为了克服这些限制,我们引入了一种使用深度强化学习进行运动提示的新方法,首次在具有完整MSP运动学非线性考虑的6自由度设置中进行了演示。作者之前的工作成功地将DRL应用于简化的2自由度设置,但没有考虑运动学或动力学约束。通过将MSP的完整运动学模型整合到算法中,该方法已扩展到所有6个自由度,这是使其能够在真实运动模拟器上应用的关键一步。DRL-MCA的训练基于近端策略优化(Proximal Policy Optimization)在actor-critic实现中,并结合了自动超参数优化。在详细介绍必要的训练框架和算法本身之后,我们提供了一个全面的验证,表明DRL MCA实现了与已建立算法相比具有竞争力的性能。此外,它通过尊重所有系统约束并满足所有实时要求,生成了可行的轨迹,且具有较低的...

🔬 方法详解

问题定义:运动模拟器需要运动提示算法来规划平台轨迹,但平台工作空间有限,无法直接复制参考轨迹。传统方法,如线性模型预测控制,无法充分考虑平台的非线性特性,导致性能受限。非线性模型预测控制计算量大,难以满足实时性要求,阻碍了其在飞行员在环仿真中的应用。

核心思路:利用深度强化学习(DRL)直接学习运动提示策略,无需显式建模平台的非线性动力学。通过训练一个智能体,使其能够根据当前状态选择合适的动作,从而生成满足约束且性能良好的轨迹。这种方法可以有效处理非线性问题,并有望实现实时控制。

技术框架:该算法采用Actor-Critic框架,其中Actor网络负责生成动作(平台控制指令),Critic网络负责评估当前状态的价值。通过Proximal Policy Optimization (PPO)算法进行训练,PPO是一种策略梯度方法,旨在稳定地更新策略,避免策略崩溃。训练过程中,将运动模拟器的运动学模型集成到环境中,使智能体能够学习到符合物理规律的运动策略。

关键创新:该研究的关键创新在于将深度强化学习应用于6自由度运动提示问题,并充分考虑了MSP的非线性运动学特性。与以往的简化模型或线性方法相比,该方法能够更准确地模拟真实平台的运动特性,从而提高运动模拟的逼真度。

关键设计:Actor和Critic网络采用多层感知机(MLP)结构。损失函数包括策略损失、价值损失和熵正则化项,以鼓励探索。使用自动超参数优化方法来调整PPO算法的超参数,以获得最佳性能。训练环境包含完整的MSP运动学模型,并考虑了平台的运动学和动力学约束。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于深度强化学习的运动提示算法在6自由度运动模拟中取得了与现有算法相当的性能。该算法能够生成满足系统约束的轨迹,并满足实时性要求。此外,该算法无需手动调整参数,可以通过自动超参数优化获得良好的性能,降低了开发成本。

🎯 应用场景

该研究成果可应用于飞行模拟器、驾驶模拟器、VR游戏等领域,提高运动模拟的真实感和沉浸感。通过更逼真的运动反馈,可以增强训练效果,改善用户体验,并为虚拟现实应用带来更强的临场感。未来,该技术有望应用于机器人控制、自动驾驶等领域。

📄 摘要(原文)

In motion simulation, motion cueing algorithms are used for the trajectory planning of the motion simulator platform, where workspace limitations prevent direct reproduction of reference trajectories. Strategies such as motion washout, which return the platform to its center, are crucial in these settings. For serial robotic MSPs with highly nonlinear workspaces, it is essential to maximize the efficient utilization of the MSPs kinematic and dynamic capabilities. Traditional approaches, including classical washout filtering and linear model predictive control, fail to consider platform-specific, nonlinear properties, while nonlinear model predictive control, though comprehensive, imposes high computational demands that hinder real-time, pilot-in-the-loop application without further simplification. To overcome these limitations, we introduce a novel approach using deep reinforcement learning for motion cueing, demonstrated here for the first time in a 6-degree-of-freedom setting with full consideration of the MSPs kinematic nonlinearities. Previous work by the authors successfully demonstrated the application of DRL to a simplified 2-DOF setup, which did not consider kinematic or dynamic constraints. This approach has been extended to all 6 DOF by incorporating a complete kinematic model of the MSP into the algorithm, a crucial step for enabling its application on a real motion simulator. The training of the DRL-MCA is based on Proximal Policy Optimization in an actor-critic implementation combined with an automated hyperparameter optimization. After detailing the necessary training framework and the algorithm itself, we provide a comprehensive validation, demonstrating that the DRL MCA achieves competitive performance against established algorithms. Moreover, it generates feasible trajectories by respecting all system constraints and meets all real-time requirements with low...