Harnessing Bounded-Support Evolution Strategies for Policy Refinement

作者: Ethan Hirschowitz, Fabio Ramos

分类: cs.LG, cs.AI, cs.RO

发布日期: 2025-11-13 (更新: 2025-11-14)

备注: 10 pages, 6 figures, to be published in Australasian Conference on Robotics and Automation (ACRA 2025)

💡 一句话要点

提出三角分布ES算法，用于提升机器人策略的稳定性和性能

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 进化策略 强化学习 机器人操作 策略优化 三角分布 无梯度优化

📋 核心要点

传统On-policy强化学习在机器人控制中面临梯度噪声大、信号弱的问题，导致策略提升困难。
论文提出三角分布进化策略（TD-ES），利用有界三角噪声进行局部探索，实现稳定且可并行的策略优化。
实验表明，TD-ES在机器人操作任务中显著提升了成功率，并降低了方差，优于PPO等基线方法。

📝 摘要（中文）

在策略梯度强化学习中，提升机器人策略的性能通常受到噪声和低信号梯度的阻碍。本文重新审视了进化策略（ES），并采用有界、反向三角扰动来局部化探索，适用于策略优化。我们提出了三角分布ES（TD-ES），它将有界三角噪声与中心排序有限差分估计器相结合，以提供稳定、可并行、无梯度的更新。在两阶段流程中——PPO预训练，然后是TD-ES优化——这保留了早期的样本效率，同时实现了稳健的后期增益。在一系列机器人操作任务中，TD-ES相对于PPO将成功率提高了26.5%，并大大降低了方差，为可靠的优化提供了一条简单、计算量轻的途径。

🔬 方法详解

问题定义：论文旨在解决机器人策略优化中，传统On-policy强化学习方法（如PPO）面临的梯度噪声大、信号弱的问题。这些问题导致策略学习不稳定，难以达到最优性能，尤其是在策略优化的后期阶段。现有方法难以在样本效率和优化效果之间取得平衡。

核心思路：论文的核心思路是利用进化策略（ES）作为策略梯度方法的替代方案，并引入有界三角分布噪声来引导探索。通过限制探索范围，并结合中心排序有限差分估计器，TD-ES能够提供更稳定、更可靠的策略更新，从而克服传统方法的局限性。这种方法旨在在保持早期样本效率的同时，实现后期阶段的性能提升。

技术框架：TD-ES采用两阶段的训练流程。首先，使用PPO进行预训练，以获得一个初步的、相对较好的策略。然后，使用TD-ES对预训练的策略进行优化。TD-ES算法本身包含以下步骤：1) 对策略参数添加三角分布噪声，生成多个候选策略；2) 使用这些候选策略与环境交互，收集样本；3) 使用中心排序有限差分估计器评估每个候选策略的性能；4) 根据性能评估结果，更新策略参数。

关键创新：论文的关键创新在于提出了三角分布进化策略（TD-ES），它结合了有界三角噪声和中心排序有限差分估计器。与传统的ES方法相比，TD-ES使用有界噪声，限制了探索范围，从而提高了策略更新的稳定性。此外，中心排序有限差分估计器能够更准确地估计策略梯度，从而加速了学习过程。与基于梯度的方法相比，TD-ES是无梯度的，因此避免了梯度噪声的影响。

关键设计：TD-ES的关键设计包括：1) 使用三角分布作为噪声分布，其参数（如上下界）需要根据具体任务进行调整；2) 中心排序有限差分估计器的具体实现方式，包括采样数量和排序方法；3) PPO预训练阶段的学习率、折扣因子等参数；4) TD-ES优化阶段的学习率、噪声幅度等参数。这些参数的选择会直接影响算法的性能。

📊 实验亮点

实验结果表明，TD-ES在多个机器人操作任务中显著优于PPO。具体而言，TD-ES相对于PPO将成功率平均提高了26.5%，并且大大降低了方差，表明TD-ES具有更强的稳定性和可靠性。此外，TD-ES在计算效率方面也具有优势，为可靠的策略优化提供了一条简单、计算量轻的途径。

🎯 应用场景

该研究成果可应用于各种机器人操作任务，例如物体抓取、装配、导航等。通过TD-ES算法，可以显著提升机器人在复杂环境中的操作能力和鲁棒性。此外，该方法还可以推广到其他强化学习领域，例如游戏AI、自动驾驶等，具有广泛的应用前景。

📄 摘要（原文）

Improving competent robot policies with on-policy RL is often hampered by noisy, low-signal gradients. We revisit Evolution Strategies (ES) as a policy-gradient proxy and localize exploration with bounded, antithetic triangular perturbations, suitable for policy refinement. We propose Triangular-Distribution ES (TD-ES) which pairs bounded triangular noise with a centered-rank finite-difference estimator to deliver stable, parallelizable, gradient-free updates. In a two-stage pipeline - PPO pretraining followed by TD-ES refinement - this preserves early sample efficiency while enabling robust late-stage gains. Across a suite of robotic manipulation tasks, TD-ES raises success rates by 26.5% relative to PPO and greatly reduces variance, offering a simple, compute-light path to reliable refinement.

Harnessing Bounded-Support Evolution Strategies for Policy Refinement

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册