Harnessing Bounded-Support Evolution Strategies for Policy Refinement

📄 arXiv: 2511.09923v2 📥 PDF

作者: Ethan Hirschowitz, Fabio Ramos

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-11-13 (更新: 2025-11-14)

备注: 10 pages, 6 figures, to be published in Australasian Conference on Robotics and Automation (ACRA 2025)


💡 一句话要点

提出三角分布ES算法,用于提升机器人策略的稳定性和性能

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 进化策略 强化学习 机器人操作 策略优化 三角分布 无梯度优化

📋 核心要点

  1. 传统On-policy强化学习在机器人控制中面临梯度噪声大、信号弱的问题,导致策略提升困难。
  2. 论文提出三角分布进化策略(TD-ES),利用有界三角噪声进行局部探索,实现稳定且可并行的策略优化。
  3. 实验表明,TD-ES在机器人操作任务中显著提升了成功率,并降低了方差,优于PPO等基线方法。

📝 摘要(中文)

在策略梯度强化学习中,提升机器人策略的性能通常受到噪声和低信号梯度的阻碍。本文重新审视了进化策略(ES),并采用有界、反向三角扰动来局部化探索,适用于策略优化。我们提出了三角分布ES(TD-ES),它将有界三角噪声与中心排序有限差分估计器相结合,以提供稳定、可并行、无梯度的更新。在两阶段流程中——PPO预训练,然后是TD-ES优化——这保留了早期的样本效率,同时实现了稳健的后期增益。在一系列机器人操作任务中,TD-ES相对于PPO将成功率提高了26.5%,并大大降低了方差,为可靠的优化提供了一条简单、计算量轻的途径。

🔬 方法详解

问题定义:论文旨在解决机器人策略优化中,传统On-policy强化学习方法(如PPO)面临的梯度噪声大、信号弱的问题。这些问题导致策略学习不稳定,难以达到最优性能,尤其是在策略优化的后期阶段。现有方法难以在样本效率和优化效果之间取得平衡。

核心思路:论文的核心思路是利用进化策略(ES)作为策略梯度方法的替代方案,并引入有界三角分布噪声来引导探索。通过限制探索范围,并结合中心排序有限差分估计器,TD-ES能够提供更稳定、更可靠的策略更新,从而克服传统方法的局限性。这种方法旨在在保持早期样本效率的同时,实现后期阶段的性能提升。

技术框架:TD-ES采用两阶段的训练流程。首先,使用PPO进行预训练,以获得一个初步的、相对较好的策略。然后,使用TD-ES对预训练的策略进行优化。TD-ES算法本身包含以下步骤:1) 对策略参数添加三角分布噪声,生成多个候选策略;2) 使用这些候选策略与环境交互,收集样本;3) 使用中心排序有限差分估计器评估每个候选策略的性能;4) 根据性能评估结果,更新策略参数。

关键创新:论文的关键创新在于提出了三角分布进化策略(TD-ES),它结合了有界三角噪声和中心排序有限差分估计器。与传统的ES方法相比,TD-ES使用有界噪声,限制了探索范围,从而提高了策略更新的稳定性。此外,中心排序有限差分估计器能够更准确地估计策略梯度,从而加速了学习过程。与基于梯度的方法相比,TD-ES是无梯度的,因此避免了梯度噪声的影响。

关键设计:TD-ES的关键设计包括:1) 使用三角分布作为噪声分布,其参数(如上下界)需要根据具体任务进行调整;2) 中心排序有限差分估计器的具体实现方式,包括采样数量和排序方法;3) PPO预训练阶段的学习率、折扣因子等参数;4) TD-ES优化阶段的学习率、噪声幅度等参数。这些参数的选择会直接影响算法的性能。

📊 实验亮点

实验结果表明,TD-ES在多个机器人操作任务中显著优于PPO。具体而言,TD-ES相对于PPO将成功率平均提高了26.5%,并且大大降低了方差,表明TD-ES具有更强的稳定性和可靠性。此外,TD-ES在计算效率方面也具有优势,为可靠的策略优化提供了一条简单、计算量轻的途径。

🎯 应用场景

该研究成果可应用于各种机器人操作任务,例如物体抓取、装配、导航等。通过TD-ES算法,可以显著提升机器人在复杂环境中的操作能力和鲁棒性。此外,该方法还可以推广到其他强化学习领域,例如游戏AI、自动驾驶等,具有广泛的应用前景。

📄 摘要(原文)

Improving competent robot policies with on-policy RL is often hampered by noisy, low-signal gradients. We revisit Evolution Strategies (ES) as a policy-gradient proxy and localize exploration with bounded, antithetic triangular perturbations, suitable for policy refinement. We propose Triangular-Distribution ES (TD-ES) which pairs bounded triangular noise with a centered-rank finite-difference estimator to deliver stable, parallelizable, gradient-free updates. In a two-stage pipeline - PPO pretraining followed by TD-ES refinement - this preserves early sample efficiency while enabling robust late-stage gains. Across a suite of robotic manipulation tasks, TD-ES raises success rates by 26.5% relative to PPO and greatly reduces variance, offering a simple, compute-light path to reliable refinement.