Learning Robust Policies via Interpretable Hamilton-Jacobi Reachability-Guided Disturbances

作者: Hanyang Hu, Xilun Zhang, Xubo Lyu, Mo Chen

分类: cs.RO

发布日期: 2024-09-29

💡 一句话要点

提出基于Hamilton-Jacobi可达性引导扰动的鲁棒强化学习策略训练框架

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 鲁棒强化学习 对抗训练 Hamilton-Jacobi可达性 机器人控制 未知扰动

📋 核心要点

深度强化学习在机器人控制中表现出色，但对未知扰动和对抗攻击的鲁棒性不足。
提出一种结合模型控制和对抗训练的框架，利用Hamilton-Jacobi可达性引导扰动作为对抗样本。
在reach-avoid游戏和四旋翼稳定任务中验证了方法的有效性，评论家网络与HJ值函数一致。

📝 摘要（中文）

深度强化学习(RL)在具有复杂和异构动力学的机器人领域取得了显著成功。然而，它对未知扰动和对抗攻击的脆弱性仍然是一个重大挑战。本文提出了一种鲁棒策略训练框架，该框架将基于模型的控制原则与对抗性RL训练相结合，以提高鲁棒性，而无需外部黑盒对抗者。我们的方法引入了一种新颖的Hamilton-Jacobi可达性引导扰动，用于对抗性RL训练，其中我们使用可解释的最坏情况或接近最坏情况的扰动作为针对鲁棒策略的对抗者。我们在三个不同的任务中评估了其有效性：模拟和真实环境中的reach-avoid游戏，以及模拟环境中高度动态的四旋翼飞行器稳定任务。我们验证了我们学习到的评论家网络与ground-truth HJ值函数一致，而策略网络显示出与其他基于学习的方法相当的性能。

🔬 方法详解

问题定义：现有深度强化学习方法在机器人控制领域面临鲁棒性挑战，容易受到未知扰动和对抗攻击的影响。传统的对抗训练方法依赖于外部黑盒对抗者，缺乏可解释性，且训练成本高昂。因此，需要一种更有效、可解释的鲁棒策略训练方法。

核心思路：本文的核心思路是利用Hamilton-Jacobi (HJ) 可达性分析来引导对抗样本的生成，从而实现更有效的对抗训练。通过HJ可达性分析，可以确定系统在特定状态下可能遇到的最坏情况扰动，并将这些扰动作为对抗样本来训练强化学习策略，从而提高策略的鲁棒性。这种方法避免了对外部黑盒对抗者的依赖，并提供了对对抗样本的解释性。

技术框架：该框架主要包含以下几个模块：1) 基于Hamilton-Jacobi可达性分析的扰动生成模块：该模块根据当前状态和系统动力学，计算出最坏情况或接近最坏情况的扰动。2) 强化学习训练模块：该模块使用对抗性强化学习算法，将生成的扰动作为对抗样本来训练策略网络和评论家网络。3) 策略网络和评论家网络：策略网络负责生成控制动作，评论家网络负责评估状态-动作对的价值。整个训练过程通过迭代更新策略网络和评论家网络，最终得到一个鲁棒的控制策略。

关键创新：该方法最重要的技术创新点在于将Hamilton-Jacobi可达性分析引入到对抗性强化学习训练中。与传统的对抗训练方法相比，该方法能够生成更具针对性和可解释性的对抗样本，从而更有效地提高策略的鲁棒性。此外，该方法避免了对外部黑盒对抗者的依赖，降低了训练成本。

关键设计：在扰动生成模块中，使用Hamilton-Jacobi偏微分方程求解可达集，并根据可达集边界确定最坏情况扰动。在强化学习训练模块中，可以使用各种对抗性强化学习算法，例如PPO、TRPO等。损失函数通常包括强化学习损失和对抗损失，对抗损失用于惩罚策略在对抗样本下的表现。网络结构可以根据具体任务进行设计，通常包括卷积神经网络或循环神经网络等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在reach-avoid游戏和四旋翼稳定任务中均取得了良好的效果。在reach-avoid游戏中，该方法能够学习到鲁棒的策略，成功避开障碍物并到达目标点，即使在存在未知扰动的情况下也能保持较高的成功率。在四旋翼稳定任务中，该方法能够使四旋翼飞行器在受到外部扰动时保持稳定，并且性能与其他基于学习的方法相当，同时评论家网络与真实的HJ值函数更加一致。

🎯 应用场景

该研究成果可应用于各种需要高鲁棒性的机器人控制场景，例如自动驾驶、无人机导航、工业机器人等。通过提高机器人对未知扰动和对抗攻击的抵抗能力，可以显著提升机器人的安全性和可靠性，使其能够在复杂和不确定的环境中稳定运行。此外，该方法还可以应用于其他领域的鲁棒控制问题，例如电力系统稳定、金融风险管理等。

📄 摘要（原文）

Deep Reinforcement Learning (RL) has shown remarkable success in robotics with complex and heterogeneous dynamics. However, its vulnerability to unknown disturbances and adversarial attacks remains a significant challenge. In this paper, we propose a robust policy training framework that integrates model-based control principles with adversarial RL training to improve robustness without the need for external black-box adversaries. Our approach introduces a novel Hamilton-Jacobi reachability-guided disturbance for adversarial RL training, where we use interpretable worst-case or near-worst-case disturbances as adversaries against the robust policy. We evaluated its effectiveness across three distinct tasks: a reach-avoid game in both simulation and real-world settings, and a highly dynamic quadrotor stabilization task in simulation. We validate that our learned critic network is consistent with the ground-truth HJ value function, while the policy network shows comparable performance with other learning-based methods.

Learning Robust Policies via Interpretable Hamilton-Jacobi Reachability-Guided Disturbances

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理