Robust Quadruped Locomotion via Evolutionary Reinforcement Learning

📄 arXiv: 2604.07224v1 📥 PDF

作者: Brian McAteer, Karl Mason

分类: cs.RO

发布日期: 2026-04-08

备注: 10 pages, 3 figures. Accepted to the 11th International Conference on Control and Robotics Engineering (ICCRE 2026), Kyoto, Japan, May, 2026, www.iccre.org


💡 一句话要点

提出基于进化强化学习的鲁棒四足机器人运动控制方法,提升环境适应性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 强化学习 进化算法 鲁棒性 运动控制 地形适应 深度学习

📋 核心要点

  1. 现有深度强化学习方法在四足机器人运动控制中,泛化能力不足,难以适应复杂或未知的地形环境。
  2. 采用进化强化学习,结合梯度优化和种群探索,提升策略的鲁棒性和泛化能力,减少对特定环境的过拟合。
  3. 实验表明,CEM-TD3在粗糙地形上的迁移性能显著优于传统DDPG和TD3,验证了进化搜索的有效性。

📝 摘要(中文)

深度强化学习在四足机器人运动控制方面取得了显著成果,但模拟环境中训练的策略在环境变化时常常失效。进化强化学习旨在通过结合基于梯度的策略优化与基于种群的探索来解决这一局限性。本文评估了四种方法在模拟行走任务中的表现:DDPG、TD3以及两种基于交叉熵的变体CEM-DDPG和CEM-TD3。所有智能体都在平坦地形上训练,然后在该领域和训练中未遇到的粗糙地形上进行测试。TD3在平坦地面上的标准深度强化学习基线中表现最佳,平均奖励为5927.26,而CEM-TD3在训练和评估期间实现了最高的总体奖励17611.41。在粗糙地形迁移测试中,深度强化学习方法的性能急剧下降。DDPG达到-1016.32,TD3达到-99.73,而进化变体保留了大部分能力。CEM-TD3记录了最强的迁移性能,平均奖励为19574.33。这些发现表明,结合进化搜索可以减少过拟合,并提高运动控制任务中的策略鲁棒性,尤其是在部署条件与训练条件不同的情况下。

🔬 方法详解

问题定义:论文旨在解决四足机器人运动控制策略在不同地形环境下的泛化能力问题。现有的深度强化学习方法在模拟环境中训练的策略,难以直接迁移到真实或未知的复杂地形,存在过拟合现象,导致性能急剧下降。

核心思路:论文的核心思路是将进化算法(如交叉熵方法CEM)与深度强化学习算法(如DDPG和TD3)相结合,利用进化算法的全局搜索能力来探索更广泛的策略空间,从而提高策略的鲁棒性和泛化能力。这种结合可以避免传统深度强化学习方法陷入局部最优解,并更好地适应环境变化。

技术框架:整体框架包含两个主要部分:深度强化学习部分和进化算法部分。深度强化学习部分负责利用梯度信息优化策略,进化算法部分负责维护一个策略种群,并通过选择、交叉和变异等操作来探索策略空间。具体流程是:首先,使用深度强化学习算法(DDPG或TD3)训练一个初始策略。然后,使用进化算法(CEM)对策略种群进行迭代优化,每次迭代中,选择表现最好的策略,并利用这些策略来更新深度强化学习算法的参数。

关键创新:最重要的技术创新点在于将进化算法与深度强化学习算法有效结合,利用进化算法的全局搜索能力来提高策略的鲁棒性和泛化能力。与传统的深度强化学习方法相比,该方法能够更好地适应环境变化,减少过拟合现象。

关键设计:论文采用了交叉熵方法(CEM)作为进化算法,并将其与DDPG和TD3两种深度强化学习算法相结合。CEM算法通过维护一个策略分布,并在每次迭代中选择分布中表现最好的策略来更新分布参数。具体来说,CEM算法选择种群中表现最好的前k个策略,并计算这些策略的均值和方差,然后使用这些均值和方差来更新策略分布。此外,论文还对奖励函数进行了精心设计,以鼓励机器人向前行走并保持平衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CEM-TD3在粗糙地形上的迁移性能显著优于DDPG和TD3。在粗糙地形测试中,DDPG和TD3的平均奖励分别降至-1016.32和-99.73,而CEM-TD3的平均奖励高达19574.33,表明进化强化学习能够有效提高策略的鲁棒性和泛化能力。CEM-TD3在训练和评估期间也实现了最高的总体奖励17611.41。

🎯 应用场景

该研究成果可应用于各种需要四足机器人进行复杂地形运动的场景,例如搜救、勘探、物流和农业等。通过提高机器人的环境适应性和鲁棒性,可以使其在更加恶劣和不确定的环境中执行任务,具有重要的实际应用价值和广阔的发展前景。

📄 摘要(原文)

Deep reinforcement learning has recently achieved strong results in quadrupedal locomotion, yet policies trained in simulation often fail to transfer when the environment changes. Evolutionary reinforcement learning aims to address this limitation by combining gradient-based policy optimisation with population-driven exploration. This work evaluates four methods on a simulated walking task: DDPG, TD3, and two Cross-Entropy-based variants CEM-DDPG and CEM-TD3. All agents are trained on flat terrain and later tested both on this domain and on a rough terrain not encountered during training. TD3 performs best among the standard deep RL baselines on flat ground with a mean reward of 5927.26, while CEM-TD3 achieves the highest rewards overall during training and evaluation 17611.41. Under the rough-terrain transfer test, performance of the deep RL methods drops sharply. DDPG achieves -1016.32 and TD3 achieves -99.73, whereas the evolutionary variants retain much of their capability. CEM-TD3 records the strongest transfer performance with a mean reward of 19574.33. These findings suggest that incorporating evolutionary search can reduce overfitting and improve policy robustness in locomotion tasks, particularly when deployment conditions differ from those seen during training.