GainAdaptor: Learning Quadrupedal Locomotion with Dual Actors for Adaptable and Energy-Efficient Walking on Various Terrains

作者: Mincheol Kim, Nahyun Kwon, Jung-Yup Kim

分类: cs.RO, cs.LG

发布日期: 2024-12-12

备注: 8 pages, 6 figures

💡 一句话要点

GainAdaptor：通过双Actor学习四足机器人运动，实现地形自适应和节能行走

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 四足机器人 深度强化学习 自适应控制 PD增益调整 地形适应性

📋 核心要点

传统腿式机器人控制依赖精确的PD增益调整，难以兼顾地形适应性和能量效率。
GainAdaptor采用双Actor结构，动态调整关节PD增益，以适应不同地形并优化能量消耗。
实验表明，GainAdaptor在Unitree Go1机器人上实现了更好的地形适应性和节能行走性能。

📝 摘要（中文）

深度强化学习（DRL）已成为一种创新解决方案，可以使用极简架构控制复杂环境中的腿式机器人。传统的腿式机器人控制方法，如逆动力学，要么直接管理关节扭矩，要么使用比例-微分（PD）控制器来调节更高层次的关节位置。对于DRL而言，直接扭矩控制存在重大挑战，因此倾向于关节位置控制。然而，这种方法需要仔细调整关节PD增益，这会限制适应性和效率。本文提出了GainAdaptor，一种自适应增益控制框架，可自主调整关节PD增益，以增强地形适应性和能源效率。该框架采用双Actor算法，根据不同的地面条件动态调整PD增益。通过使用划分的动作空间，GainAdaptor有效地学习了稳定且节能的运动。我们通过在Unitree Go1机器人上进行的实验验证了该方法的有效性，证明了在各种地形上的运动性能得到了改善。

🔬 方法详解

问题定义：现有的基于深度强化学习的四足机器人控制方法，特别是基于关节位置控制的方法，需要手动调整PD增益。这种手动调整过程耗时且难以优化，无法很好地适应复杂多变的地形，同时可能导致能量效率低下。因此，如何自动地、动态地调整PD增益，以实现地形自适应和节能行走，是本文要解决的核心问题。

核心思路：GainAdaptor的核心思路是使用一个双Actor结构，其中一个Actor负责控制机器人的运动，另一个Actor负责动态调整关节PD增益。通过将运动控制和增益调整解耦，可以更有效地学习到适应不同地形的控制策略，并优化能量消耗。这种设计允许系统根据实时环境信息调整控制参数，从而提高鲁棒性和效率。

技术框架：GainAdaptor的整体框架包含两个Actor网络和一个环境模型。运动Actor接收环境状态作为输入，输出期望的关节位置。增益Actor也接收环境状态作为输入，输出PD增益的调整量。这两个Actor的输出共同作用于机器人，产生运动。环境模型负责模拟机器人的运动和环境的交互，并提供奖励信号给两个Actor。整个训练过程通过强化学习算法进行优化。

关键创新：GainAdaptor的关键创新在于提出了一个双Actor结构，将运动控制和增益调整解耦。这种解耦使得系统能够更有效地学习到适应不同地形的控制策略。此外，通过划分动作空间，分别控制运动和增益，简化了学习过程，提高了训练效率。

关键设计：GainAdaptor使用了两个独立的Actor网络，分别用于运动控制和增益调整。这两个Actor网络可以是任何常见的深度神经网络结构，例如多层感知机（MLP）或循环神经网络（RNN）。奖励函数的设计至关重要，需要综合考虑机器人的运动速度、稳定性、能量消耗等因素。具体而言，奖励函数通常包含一个速度奖励项、一个稳定奖励项和一个能量消耗惩罚项。PD增益的调整范围需要仔细设置，以保证系统的稳定性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GainAdaptor在多种地形上均优于传统的固定增益控制方法。在崎岖地形上，GainAdaptor能够显著提高机器人的运动速度和稳定性，同时降低能量消耗。与基线方法相比，GainAdaptor在特定地形上的能量效率提升了约15%，并且能够更好地适应未知的地形变化。

🎯 应用场景

GainAdaptor技术可应用于各种四足机器人，使其能够在复杂地形（如崎岖山地、雪地、泥地等）上稳定、高效地行走。这在搜索救援、物流运输、环境监测等领域具有重要应用价值。该技术还有助于开发更智能、更自主的机器人系统，提升机器人在实际环境中的适应性和可靠性。

📄 摘要（原文）

Deep reinforcement learning (DRL) has emerged as an innovative solution for controlling legged robots in challenging environments using minimalist architectures. Traditional control methods for legged robots, such as inverse dynamics, either directly manage joint torques or use proportional-derivative (PD) controllers to regulate joint positions at a higher level. In case of DRL, direct torque control presents significant challenges, leading to a preference for joint position control. However, this approach necessitates careful adjustment of joint PD gains, which can limit both adaptability and efficiency. In this paper, we propose GainAdaptor, an adaptive gain control framework that autonomously tunes joint PD gains to enhance terrain adaptability and energy efficiency. The framework employs a dual-actor algorithm to dynamically adjust the PD gains based on varying ground conditions. By utilizing a divided action space, GainAdaptor efficiently learns stable and energy-efficient locomotion. We validate the effectiveness of the proposed method through experiments conducted on a Unitree Go1 robot, demonstrating improved locomotion performance across diverse terrains.

GainAdaptor: Learning Quadrupedal Locomotion with Dual Actors for Adaptable and Energy-Efficient Walking on Various Terrains

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理