Finetuning Deep Reinforcement Learning Policies with Evolutionary Strategies for Control of Underactuated Robots

作者: Marco Calì, Alberto Sinigaglia, Niccolò Turcato, Ruggero Carli, Gian Antonio Susto

分类: cs.RO

发布日期: 2025-07-14

💡 一句话要点

提出基于进化策略微调深度强化学习策略的方法，用于欠驱动机器人控制

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 进化策略 欠驱动机器人 策略优化 Soft-Actor Critic 可分离自然进化策略 机器人控制 零阶优化

📋 核心要点

深度强化学习在欠驱动机器人控制中面临策略优化难题，现有方法难以直接优化复杂任务指标。
论文提出使用进化策略微调深度强化学习策略，利用替代奖励函数和零阶优化直接优化原始评分。
实验表明，该方法显著提升了欠驱动机器人的控制性能和鲁棒性，优于现有基线方法。

📝 摘要（中文）

深度强化学习(RL)已成为解决复杂控制问题的强大方法，尤其是在涉及欠驱动机器人系统时。然而，在某些情况下，策略可能需要改进，以实现与特定任务目标相一致的最佳性能和鲁棒性。本文提出了一种使用进化策略(ES)微调深度RL策略的方法，以提高欠驱动机器人的控制性能。我们的方法包括首先使用Soft-Actor Critic (SAC)训练一个RL智能体，使用一个旨在近似复杂特定评分指标的替代奖励函数。随后，我们通过采用可分离自然进化策略(SNES)的零阶优化步骤来改进这个学习到的策略，直接针对原始分数。在IROS 2024的第二届AI Olympics with RealAIGym中进行的实验评估表明，我们的进化微调显著提高了智能体的性能，同时保持了高鲁棒性。由此产生的控制器优于已建立的基线，为竞赛任务取得了有竞争力的分数。

🔬 方法详解

问题定义：论文旨在解决欠驱动机器人控制中，深度强化学习策略难以直接优化复杂任务指标的问题。现有方法通常依赖于设计的替代奖励函数，但这些函数难以完全捕捉真实任务的复杂性，导致策略性能受限。此外，直接优化真实任务指标往往面临梯度稀疏或难以计算的问题。

核心思路：论文的核心思路是首先使用深度强化学习（SAC算法）训练一个初步的策略，然后利用进化策略（ES，具体为SNES）对该策略进行微调。ES是一种零阶优化方法，不需要梯度信息，可以直接优化真实任务的复杂评分指标。通过两阶段的优化，既能利用深度强化学习的样本效率，又能利用进化策略的直接优化能力。

技术框架：整体框架包含两个主要阶段： 1. 深度强化学习预训练阶段：使用SAC算法，基于替代奖励函数训练一个初始策略。 2. 进化策略微调阶段：使用SNES算法，直接优化真实任务的评分指标，对预训练的策略进行微调。SNES算法通过对策略参数进行扰动，评估扰动后的策略性能，并根据性能调整策略参数。

关键创新：论文的关键创新在于将深度强化学习和进化策略相结合，用于欠驱动机器人的控制策略优化。与传统的只使用深度强化学习或只使用进化策略的方法相比，该方法能够更好地平衡样本效率和优化目标。此外，使用SNES算法进行微调，避免了梯度计算的难题，可以直接优化复杂的评分指标。

关键设计： * 替代奖励函数的设计：替代奖励函数需要尽可能地近似真实任务的评分指标，以便深度强化学习能够学习到一个较好的初始策略。 * SNES算法的参数设置：包括种群大小、学习率、扰动幅度等。这些参数需要根据具体任务进行调整，以获得最佳的微调效果。 * 策略表示：策略通常表示为一个神经网络，其输入是机器人的状态，输出是机器人的控制动作。神经网络的结构和参数也会影响最终的控制性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在RealAIGym的AI Olympics竞赛中取得了显著的性能提升，优于已建立的基线方法。具体而言，通过进化策略微调，智能体的得分显著提高，并且保持了较高的鲁棒性。这表明该方法能够有效地优化深度强化学习策略，使其更好地适应复杂的控制任务。

🎯 应用场景

该研究成果可应用于各种欠驱动机器人的控制任务，例如人形机器人、水下机器人、飞行机器人等。通过结合深度强化学习和进化策略，可以实现对这些机器人更高效、更鲁棒的控制，使其能够完成更复杂的任务，例如自主导航、目标抓取、环境探索等。该方法在机器人自动化、智能制造、灾难救援等领域具有广阔的应用前景。

📄 摘要（原文）

Deep Reinforcement Learning (RL) has emerged as a powerful method for addressing complex control problems, particularly those involving underactuated robotic systems. However, in some cases, policies may require refinement to achieve optimal performance and robustness aligned with specific task objectives. In this paper, we propose an approach for fine-tuning Deep RL policies using Evolutionary Strategies (ES) to enhance control performance for underactuated robots. Our method involves initially training an RL agent with Soft-Actor Critic (SAC) using a surrogate reward function designed to approximate complex specific scoring metrics. We subsequently refine this learned policy through a zero-order optimization step employing the Separable Natural Evolution Strategy (SNES), directly targeting the original score. Experimental evaluations conducted in the context of the 2nd AI Olympics with RealAIGym at IROS 2024 demonstrate that our evolutionary fine-tuning significantly improves agent performance while maintaining high robustness. The resulting controllers outperform established baselines, achieving competitive scores for the competition tasks.

Finetuning Deep Reinforcement Learning Policies with Evolutionary Strategies for Control of Underactuated Robots

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理