Post-Convergence Sim-to-Real Policy Transfer: A Principled Alternative to Cherry-Picking

📄 arXiv: 2504.15414v1 📥 PDF

作者: Dylan Khor, Bowen Weng

分类: cs.RO, cs.LG

发布日期: 2025-04-21


💡 一句话要点

提出后收敛Sim-to-Real策略迁移方法,解决策略挑选难题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: Sim-to-Real 强化学习 策略迁移 机器人控制 凸优化 最坏情况性能 后收敛优化

📋 核心要点

  1. 现有Sim-to-Real方法主要集中在预收敛阶段,但无法消除训练过程中的噪声振荡,导致策略选择依赖经验或挑选。
  2. 论文提出一种后收敛Sim-to-Real策略迁移方法,通过最坏情况性能迁移优化,提升策略在真实环境中的鲁棒性。
  3. 实验证明,该方法能够有效地将强化学习训练的运动策略从模拟环境迁移到真实世界的机器人上,提升了性能。

📝 摘要(中文)

基于学习的方法,特别是强化学习(RL),已被广泛用于开发自主代理的控制策略,例如腿式机器人的运动策略。RL训练通常通过迭代优化模拟器中的策略来最大化预定义的奖励(或最小化相应的成本/损失)。从随机初始化的策略开始,经验期望奖励遵循一个总体上升趋势的轨迹。虽然一些策略会暂时陷入局部最优,但一个定义良好的训练过程通常会收敛到一个具有噪声振荡的奖励水平。然而,选择一个用于真实世界部署的策略很少是一个分析决策(即,简单地选择具有最高奖励的策略),而是通常通过反复试验来执行。为了改善sim-to-real迁移,大多数研究集中在预收敛阶段,采用诸如域随机化、多保真度训练、对抗训练和架构创新等技术。然而,这些方法并没有消除不可避免的收敛轨迹和奖励的噪声振荡,导致启发式策略选择或挑选。本文通过引入最坏情况性能迁移优化方法来解决后收敛sim-to-real迁移问题,该方法被公式化为凸二次约束线性规划问题。大量的实验证明了其在将基于RL的运动策略从模拟迁移到真实世界实验室测试中的有效性。

🔬 方法详解

问题定义:论文旨在解决强化学习训练后,如何从模拟环境中选择最佳策略并成功迁移到真实世界的问题。现有方法,如域随机化等,主要集中在训练的预收敛阶段,但无法避免训练过程中的噪声和局部最优,导致策略选择过程依赖于启发式方法或人工挑选,缺乏理论指导和效率。

核心思路:论文的核心思路是关注强化学习训练的后收敛阶段,并提出一种基于最坏情况性能的优化方法。该方法旨在选择在真实环境中具有最差性能表现也相对较好的策略,从而提高策略的鲁棒性和可靠性。通过优化最坏情况下的性能,可以有效避免选择在模拟环境中表现良好但在真实环境中表现不佳的策略。

技术框架:该方法的核心是一个凸二次约束线性规划问题。整体流程如下:1) 使用强化学习在模拟环境中训练策略,得到一系列收敛后的策略;2) 针对每个策略,评估其在模拟环境中的性能,并估计其在真实环境中的最坏情况性能;3) 将策略选择问题建模为凸二次约束线性规划问题,目标是最大化所有策略中最坏情况性能的最小值;4) 求解该优化问题,得到最优的策略。

关键创新:该论文的关键创新在于将后收敛阶段的策略选择问题建模为一个可解的优化问题,并引入了最坏情况性能的概念。与传统的启发式策略选择方法相比,该方法具有更强的理论基础和更高的效率。此外,将问题转化为凸优化问题,保证了可以找到全局最优解。

关键设计:该方法的一个关键设计是真实环境中最坏情况性能的估计。论文中具体如何估计未知,但强调了其重要性。另一个关键设计是将策略选择问题建模为凸二次约束线性规划问题,这使得可以使用现有的优化算法高效地求解该问题。具体的约束条件和目标函数的设计需要根据具体的应用场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出的方法在Sim-to-Real策略迁移中的有效性。实验结果表明,该方法能够选择出在真实环境中具有更好鲁棒性的策略,并显著提高了机器人的运动性能。具体的性能数据和对比基线未知,但论文强调了在真实世界实验室测试中取得了积极成果。

🎯 应用场景

该研究成果可广泛应用于机器人控制领域,尤其是在需要将模拟环境中训练的策略迁移到真实机器人上的场景。例如,可以用于四足机器人的运动控制、无人机的飞行控制、以及自动驾驶车辆的决策控制等。通过提高Sim-to-Real的迁移效率和策略的鲁棒性,可以降低机器人开发的成本和周期,加速机器人在各个领域的应用。

📄 摘要(原文)

Learning-based approaches, particularly reinforcement learning (RL), have become widely used for developing control policies for autonomous agents, such as locomotion policies for legged robots. RL training typically maximizes a predefined reward (or minimizes a corresponding cost/loss) by iteratively optimizing policies within a simulator. Starting from a randomly initialized policy, the empirical expected reward follows a trajectory with an overall increasing trend. While some policies become temporarily stuck in local optima, a well-defined training process generally converges to a reward level with noisy oscillations. However, selecting a policy for real-world deployment is rarely an analytical decision (i.e., simply choosing the one with the highest reward) and is instead often performed through trial and error. To improve sim-to-real transfer, most research focuses on the pre-convergence stage, employing techniques such as domain randomization, multi-fidelity training, adversarial training, and architectural innovations. However, these methods do not eliminate the inevitable convergence trajectory and noisy oscillations of rewards, leading to heuristic policy selection or cherry-picking. This paper addresses the post-convergence sim-to-real transfer problem by introducing a worst-case performance transference optimization approach, formulated as a convex quadratic-constrained linear programming problem. Extensive experiments demonstrate its effectiveness in transferring RL-based locomotion policies from simulation to real-world laboratory tests.