Onboard MuJoCo-based Model Predictive Control for Shipboard Crane with Double-Pendulum Sway Suppression
作者: Oscar Pang, Lisa Coiffard, Paul Templier, Luke Beddow, Kamil Dreczkowski, Antoine Cully
分类: cs.RO
发布日期: 2026-03-17
备注: 8 pages, 5 figures
💡 一句话要点
提出基于MuJoCo MPC的船载起重机双摆抑制方法,解决海上扰动下的重物转移难题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 船载起重机 模型预测控制 MuJoCo 双摆抑制 交叉熵方法 实时控制 物理仿真
📋 核心要点
- 海上起重机在扰动下难以精确控制,现有方法依赖简化模型或泛化性差的强化学习。
- 提出基于MuJoCo MPC的控制框架,利用物理模拟器直接评估动作序列,实现动态跟踪和摆动抑制。
- 实验表明,该方法在资源受限硬件上表现出色,优于传统PID和RL方法,并具有较强的鲁棒性。
📝 摘要(中文)
在海上环境中转移重物依赖于高效的起重机操作,但危险的双摆运动限制了其效率。海风和海浪等外部扰动进一步加剧了这种摆动。人工抑制欠驱动起重机系统的摆动非常困难。现有的控制方法通常依赖于简化的解析模型,而深度强化学习方法泛化能力较差。在计算资源受限的非线性物理系统上部署预测控制器,且不依赖于大量的离线训练或复杂的解析模型,仍然是一个巨大的挑战。本文展示了一个完整的实时控制流程,该流程以MuJoCo MPC框架为中心,利用交叉熵方法规划器直接在物理模拟器中评估候选动作序列。通过使用模拟推演,这种基于采样的方法成功地协调了动态目标跟踪和摆动阻尼的冲突目标,而无需依赖复杂的解析模型。实验表明,该控制器可以在资源受限的嵌入式硬件上有效运行,并在抵抗外部扰动方面优于传统的PID和强化学习基线。此外,即使在引入第二个有效载荷等未建模的物理差异时,我们的系统也表现出鲁棒性。
🔬 方法详解
问题定义:论文旨在解决船载起重机在海上环境中,由于海浪和风力等外部扰动引起的双摆运动问题。现有控制方法,如PID控制,难以有效抑制摆动;而深度强化学习方法虽然具有一定的自适应能力,但泛化性较差,难以适应未知的环境变化。此外,这些方法通常需要大量的离线训练或依赖于简化的解析模型,难以在资源受限的嵌入式系统上实时运行。
核心思路:论文的核心思路是利用基于物理引擎MuJoCo的模型预测控制(MPC)框架,直接在模拟环境中评估候选动作序列,从而实现动态目标跟踪和摆动抑制。这种方法避免了复杂的解析建模,并能够充分利用物理引擎的仿真能力,提高控制器的鲁棒性和适应性。
技术框架:该控制框架主要包含以下几个模块:1)状态估计模块:用于估计起重机的当前状态,包括位置、速度和摆角等;2)模型预测模块:利用MuJoCo物理引擎对起重机的未来运动进行预测,评估不同动作序列的效果;3)优化模块:采用交叉熵方法(Cross-Entropy Method, CEM)对候选动作序列进行优化,选择最优的动作序列;4)控制执行模块:将优化后的动作序列发送给起重机的执行机构,实现对起重机的控制。
关键创新:论文的关键创新在于将MuJoCo物理引擎与MPC框架相结合,实现了一种基于仿真的实时控制方法。这种方法无需复杂的解析建模,能够直接利用物理引擎的仿真能力,提高控制器的鲁棒性和适应性。此外,论文还采用交叉熵方法对动作序列进行优化,提高了优化效率和控制性能。
关键设计:论文中,目标函数的设计至关重要,需要同时考虑目标跟踪的精度和摆动抑制的效果。因此,目标函数通常包含两部分:一部分是目标跟踪误差的惩罚项,另一部分是摆动角度的惩罚项。此外,交叉熵方法的参数设置,如种群大小和迭代次数,也会影响优化效果。论文中还提到,该控制器可以在资源受限的嵌入式硬件上运行,这表明该方法具有较高的计算效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在抵抗外部扰动方面优于传统的PID和强化学习基线。具体来说,在相同的扰动条件下,该方法的摆动幅度明显小于PID和强化学习方法,并且能够更快地稳定到目标位置。此外,该系统还表现出较强的鲁棒性,即使在引入第二个有效载荷等未建模的物理差异时,仍然能够保持良好的控制性能。
🎯 应用场景
该研究成果可应用于各种海上起重作业场景,例如海上风电安装、海洋平台维护、船舶物资装卸等。通过提高起重机的控制精度和效率,可以降低作业风险,缩短作业时间,并减少对人工操作的依赖。未来,该技术有望推广到其他类型的起重设备和复杂操作场景,例如高空作业、建筑施工等。
📄 摘要(原文)
Transferring heavy payloads in maritime settings relies on efficient crane operation, limited by hazardous double-pendulum payload sway. This sway motion is further exacerbated in offshore environments by external perturbations from wind and ocean waves. Manual suppression of these oscillations on an underactuated crane system by human operators is challenging. Existing control methods struggle in such settings, often relying on simplified analytical models, while deep reinforcement learning (RL) approaches tend to generalise poorly to unseen conditions. Deploying a predictive controller onto compute-constrained, highly non-linear physical systems without relying on extensive offline training or complex analytical models remains a significant challenge. Here we show a complete real-time control pipeline centered on the MuJoCo MPC framework that leverages a cross-entropy method planner to evaluate candidate action sequences directly within a physics simulator. By using simulated rollouts, this sampling-based approach successfully reconciles the conflicting objectives of dynamic target tracking and sway damping without relying on complex analytical models. We demonstrate that the controller can run effectively on a resource-constrained embedded hardware, while outperforming traditional PID and RL baselines in counteracting external base perturbations. Furthermore, our system demonstrates robustness even when subjected to unmodeled physical discrepancies like the introduction of a second payload.