Learning to Swim: Reinforcement Learning for 6-DOF Control of Thruster-driven Autonomous Underwater Vehicles

📄 arXiv: 2410.00120v2 📥 PDF

作者: Levi Cai, Kevin Chang, Yogesh Girdhar

分类: cs.RO

发布日期: 2024-09-30 (更新: 2025-03-07)

备注: To appear at ICRA 2025


💡 一句话要点

提出基于强化学习的AUV六自由度控制方法,实现零样本迁移

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 水下机器人 强化学习 六自由度控制 零样本迁移 域随机化

📋 核心要点

  1. 传统AUV控制依赖被动稳定和PID控制器,但对配置变化敏感,控制迟缓。
  2. 提出基于强化学习的六自由度AUV控制方法,直接学习命令到推进器输出的映射。
  3. 通过高度并行化的模拟器训练,实现零样本sim-to-real迁移,性能与PID控制器相当,且对参数变化鲁棒。

📝 摘要(中文)

控制AUV极具挑战,因为作用于机器人的复杂非线性水动力力影响显著,在水中不可忽略。对于小型AUV,由于有效载荷变化和不同水动力条件下的部署,其动力学会发生显著变化,问题更加严重。常见的AUV控制方法是将被动稳定与顶部的附加浮力和底部的重量相结合,以及针对简单平滑运动原语调整的PID控制器。然而,这种方法以控制迟缓为代价,并且经常需要随着配置更改重新调整控制器。本文提出了一种快速(可在几分钟内训练)的基于强化学习的方法,用于推进器驱动的AUV的完整六自由度(DOF)控制,直接将六自由度命令条件输入转换为推进器输出。我们提出了一个新的、高度并行化的水下车辆动力学模拟器。我们通过零样本sim-to-real(无需调整)迁移到真实AUV上展示了这种方法,该方法产生与手动调整的PID控制器相当的结果。此外,我们表明,模拟器上的域随机化产生的策略对于车辆物理参数的微小变化具有鲁棒性。

🔬 方法详解

问题定义:现有AUV控制方法,如PID控制,需要手动调整参数,对AUV的配置变化和水动力环境变化敏感,难以适应复杂的水下环境。特别是小型AUV,其动力学特性更容易受到有效载荷和环境的影响,导致控制性能下降。因此,需要一种能够自动适应环境变化,无需手动调整参数的AUV控制方法。

核心思路:利用强化学习算法,直接学习从六自由度命令到推进器输出的映射关系。通过在模拟环境中进行训练,使AUV能够自主学习最优控制策略,从而实现对AUV的精确控制。这种方法的核心在于利用强化学习的自适应能力,克服传统控制方法的局限性。

技术框架:该方法主要包含两个部分:一是高度并行化的水下车辆动力学模拟器,用于生成训练数据;二是基于强化学习的控制策略学习模块。模拟器负责模拟AUV在水下的运动,并提供环境反馈。强化学习模块则根据模拟器提供的反馈,不断优化控制策略,最终得到一个能够实现六自由度控制的策略。整体流程是从模拟器中生成数据,然后使用强化学习算法训练控制策略,最后将训练好的策略部署到真实的AUV上。

关键创新:该方法最重要的创新点在于实现了零样本sim-to-real迁移。通过在模拟环境中进行域随机化,使训练得到的控制策略对真实环境中的参数变化具有鲁棒性,从而可以直接部署到真实的AUV上,无需进行额外的调整。这与传统的控制方法需要针对具体环境进行参数调整形成了鲜明对比。

关键设计:在模拟器设计方面,采用了高度并行化的架构,以提高数据生成效率。在强化学习算法选择方面,使用了能够处理连续动作空间的算法(具体算法未知)。在域随机化方面,对AUV的物理参数(如质量、惯性矩等)和水动力参数进行了随机化,以提高策略的泛化能力。损失函数的设计目标是使AUV能够精确跟踪给定的六自由度命令。

📊 实验亮点

实验结果表明,该方法可以在几分钟内训练出一个有效的AUV控制策略,并且能够实现零样本sim-to-real迁移。在真实AUV上的实验结果与手动调整的PID控制器相当,证明了该方法的有效性。此外,通过域随机化,该方法对AUV物理参数的微小变化具有鲁棒性,进一步提高了其在实际应用中的可靠性。

🎯 应用场景

该研究成果可应用于水下机器人自主导航、水下目标跟踪、水下环境勘探等领域。通过强化学习训练得到的控制策略,可以使AUV在复杂水下环境中实现精确控制,提高水下作业效率和安全性。未来,该方法有望推广到其他类型的水下机器人,并与其他技术(如视觉导航、SLAM)相结合,实现更高级的水下自主作业。

📄 摘要(原文)

Controlling AUVs can be challenging because of the effect of complex non-linear hydrodynamic forces acting on the robot, which are significant in water and cannot be ignored. The problem is exacerbated for small AUVs for which the dynamics can change significantly with payload changes and deployments under different hydrodynamic conditions. The common approach to AUV control is a combination of passive stabilization with added buoyancy on top and weights on the bottom, and a PID controller tuned for simple and smooth motion primitives. However, the approach comes at the cost of sluggish controls and often the need to re-tune controllers with configuration changes. In this paper, we propose a fast (trainable in minutes), reinforcement learning-based approach for full 6 degree of freedom (DOF) control of a thruster-driven AUVs, taking 6-DOF command-conditioned inputs direct to thruster outputs. We present a new, highly parallelized simulator for underwater vehicle dynamics. We demonstrate this approach through zero-shot sim-to-real (with no tuning) transfer onto a real AUV that produces comparable results to hand-tuned PID controllers. Furthermore, we show that domain randomization on the simulator produces policies that are robust to small variations in vehicle's physical parameters.