Dynamic Obstacle Avoidance with Bounded Rationality Adversarial Reinforcement Learning
作者: Jose-Luis Holgado-Alvarez, Aryaman Reddi, Carlo D'Eramo
分类: cs.RO, cs.LG
发布日期: 2025-03-14
💡 一句话要点
提出Hi-QARL,通过有界理性对抗强化学习提升四足机器人动态避障能力
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 动态避障 强化学习 对抗强化学习 有界理性 量子响应均衡
📋 核心要点
- 现有四足机器人导航方法在动态障碍物环境中缺乏鲁棒性,难以应对复杂和未知的环境。
- 论文提出Hi-QARL方法,将动态障碍物建模为具有有界理性的对抗性agent,提升导航策略的鲁棒性。
- 实验表明,Hi-QARL在随机迷宫环境中表现出良好的避障能力,并在宇树GO1机器人仿真中验证了其可行性。
📝 摘要(中文)
强化学习(RL)在为腿式机器人获取稳定的运动步态方面已被证明非常有效。然而,设计能够鲁棒地在具有障碍物的未见环境中导航的控制算法仍然是四足运动中一个持续存在的问题。为了解决这个问题,通常采用分层方法来解决导航任务,该方法包括一个低级运动策略和一个高级导航策略。至关重要的是,高级策略需要对agent路径上的动态障碍物具有鲁棒性。在这项工作中,我们提出了一种新颖的方法,通过将障碍物建模为对抗性agent,遵循对抗性RL范式,来赋予导航策略鲁棒性。重要的是,为了提高训练过程的可靠性,我们通过诉诸量子响应均衡来限制对抗性agent的理性,并对其理性进行课程安排。我们将这种方法称为通过量子响应对抗强化学习的分层策略(Hi-QARL)。我们通过在具有多个障碍物的未见随机迷宫中对其进行基准测试,证明了我们方法的鲁棒性。为了证明其在实际场景中的适用性,我们的方法应用于模拟中的宇树GO1机器人。
🔬 方法详解
问题定义:论文旨在解决四足机器人在复杂动态环境中进行鲁棒导航的问题。现有方法难以应对动态障碍物,尤其是在未知环境中,导致导航策略的可靠性降低。传统的强化学习方法在训练过程中难以模拟各种复杂的动态障碍物行为,从而限制了策略的泛化能力。
核心思路:论文的核心思路是将动态障碍物建模为对抗性agent,并利用对抗强化学习(ARL)框架进行训练。通过让导航agent与一个试图阻碍其前进的对抗性agent进行博弈,可以有效地提高导航策略的鲁棒性。为了避免对抗性agent过于强大而导致训练崩溃,论文引入了有界理性的概念,限制了对抗性agent的决策能力。
技术框架:Hi-QARL采用分层策略结构,包括一个低级运动策略和一个高级导航策略。低级策略负责控制机器人的运动步态,高级策略负责规划机器人的导航路径。对抗强化学习框架用于训练高级导航策略,其中导航agent的目标是到达目标点,而对抗性agent的目标是阻碍导航agent的前进。通过迭代训练,导航agent学会避开各种动态障碍物。
关键创新:Hi-QARL的关键创新在于引入了有界理性的对抗性agent。传统的对抗强化学习方法通常假设对抗性agent是完全理性的,这可能导致训练过程不稳定。通过限制对抗性agent的理性程度,可以有效地提高训练过程的可靠性,并获得更鲁棒的导航策略。论文还采用了课程学习策略,逐步提高对抗性agent的理性程度,从而进一步提高训练效果。
关键设计:论文使用量子响应均衡(Quantal Response Equilibrium, QRE)来建模对抗性agent的有界理性。QRE允许对抗性agent以一定的概率选择次优动作,从而模拟了真实世界中障碍物的不确定性和非理性行为。论文还设计了一个课程学习策略,逐步提高QRE中的理性参数,从而使对抗性agent的行为更加复杂和具有挑战性。损失函数包括导航agent的奖励函数和对抗性agent的奖励函数,通过最大化导航agent的奖励并最小化对抗性agent的奖励来训练策略。
🖼️ 关键图片
📊 实验亮点
论文在随机迷宫环境中对Hi-QARL进行了评估,结果表明,Hi-QARL能够有效地避开多个动态障碍物,并成功到达目标点。与传统的强化学习方法相比,Hi-QARL在动态避障任务中表现出更强的鲁棒性和泛化能力。此外,论文还在宇树GO1机器人仿真中验证了Hi-QARL的可行性,证明了其在实际机器人平台上的应用潜力。
🎯 应用场景
该研究成果可应用于各种需要四足机器人进行动态避障的场景,例如:搜救行动、物流配送、复杂地形勘探等。通过提高机器人在复杂环境中的导航能力,可以使其在这些场景中发挥更大的作用,降低人员风险,提高工作效率。未来,该方法有望推广到其他类型的机器人,例如无人机和自动驾驶车辆。
📄 摘要(原文)
Reinforcement Learning (RL) has proven largely effective in obtaining stable locomotion gaits for legged robots. However, designing control algorithms which can robustly navigate unseen environments with obstacles remains an ongoing problem within quadruped locomotion. To tackle this, it is convenient to solve navigation tasks by means of a hierarchical approach with a low-level locomotion policy and a high-level navigation policy. Crucially, the high-level policy needs to be robust to dynamic obstacles along the path of the agent. In this work, we propose a novel way to endow navigation policies with robustness by a training process that models obstacles as adversarial agents, following the adversarial RL paradigm. Importantly, to improve the reliability of the training process, we bound the rationality of the adversarial agent resorting to quantal response equilibria, and place a curriculum over its rationality. We called this method Hierarchical policies via Quantal response Adversarial Reinforcement Learning (Hi-QARL). We demonstrate the robustness of our method by benchmarking it in unseen randomized mazes with multiple obstacles. To prove its applicability in real scenarios, our method is applied on a Unitree GO1 robot in simulation.