LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots
作者: Peilin Wu, Weiji Xie, Jiahang Cao, Hang Lai, Weinan Zhang
分类: cs.RO, cs.LG
发布日期: 2024-09-26 (更新: 2025-11-19)
备注: IROS 2025
💡 一句话要点
LoopSR:一种用于足式机器人终身策略自适应的循环Sim-to-Real框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 足式机器人 强化学习 Sim-to-Real 终身学习 策略自适应
📋 核心要点
- 现有领域随机化等方法虽能增强策略鲁棒性,但牺牲了特定环境下的性能,导致实际部署效果不佳。
- LoopSR通过构建真实世界的数字孪生体,在模拟环境中持续优化策略,实现终身自适应。
- 实验表明,LoopSR在数据效率上优于现有方法,在有限数据下实现了卓越的sim-to-sim和sim-to-real性能。
📝 摘要(中文)
强化学习(RL)已在足式机器人运动中展现出卓越的泛化能力,通过sim-to-real迁移得以实现。然而,虽然像领域随机化这样的自适应方法有望增强策略在不同环境中的鲁棒性,但它们可能会损害策略在任何特定环境中的性能,由于“没有免费的午餐”定理,导致次优的实际部署。为了解决这个问题,我们提出了LoopSR,一个终身策略自适应框架,在部署后阶段持续改进RL策略。LoopSR采用基于Transformer的编码器将真实世界的轨迹映射到潜在空间,并重建真实世界的数字孪生体以进行进一步改进。采用自编码器架构和对比学习方法来增强真实世界动力学特征的提取。通过将解码器预测值与从预先收集的模拟轨迹数据集中检索到的参数相结合,得出持续训练的模拟参数。通过利用模拟持续训练,与强大的基线相比,LoopSR实现了卓越的数据效率,在sim-to-sim和sim-to-real实验中都以有限的数据产生了卓越的性能。
🔬 方法详解
问题定义:足式机器人强化学习策略在sim-to-real迁移后,难以在真实环境中持续优化,领域随机化等方法虽然提高了鲁棒性,但牺牲了特定环境下的性能。现有方法难以兼顾鲁棒性和特定环境下的最优性能,且数据效率较低。
核心思路:LoopSR的核心思路是构建真实世界的数字孪生体,并在模拟环境中持续优化策略。通过将真实世界的轨迹映射到潜在空间,并重建模拟环境参数,实现从真实世界到模拟世界的循环,从而利用模拟环境进行高效的策略优化。
技术框架:LoopSR包含以下主要模块:1) 基于Transformer的编码器,用于将真实世界的轨迹映射到潜在空间;2) 解码器,用于从潜在空间重建模拟环境参数;3) 模拟环境,用于进行策略的持续训练;4) 轨迹数据集,用于检索相似的模拟环境参数。整体流程是:真实世界轨迹 -> 编码器 -> 潜在空间 -> 解码器 -> 模拟环境参数 -> 模拟环境训练 -> 优化后的策略。
关键创新:LoopSR的关键创新在于构建了真实世界的数字孪生体,并利用该数字孪生体进行策略的持续优化。与传统的sim-to-real方法不同,LoopSR不是一次性的迁移,而是持续的循环优化,从而能够更好地适应真实环境的变化。此外,LoopSR还采用了自编码器和对比学习方法来增强特征提取,提高了数据效率。
关键设计:LoopSR的关键设计包括:1) 基于Transformer的编码器,用于捕捉轨迹中的时序信息;2) 自编码器架构,用于学习真实世界动力学的潜在表示;3) 对比学习方法,用于增强特征提取的鲁棒性;4) 模拟环境参数的重建方法,通过结合解码器预测值和从轨迹数据集检索到的参数,实现更准确的模拟环境重建;5) 损失函数的设计,包括重构损失、对比损失和策略优化损失。
🖼️ 关键图片
📊 实验亮点
LoopSR在sim-to-sim和sim-to-real实验中均表现出卓越的性能。与现有方法相比,LoopSR在数据效率上具有显著优势,仅需少量真实世界数据即可实现策略的有效优化。具体性能数据和对比基线信息请参考论文原文。
🎯 应用场景
LoopSR可应用于各种足式机器人的控制策略优化,尤其适用于需要在复杂、未知或变化环境中运行的机器人。例如,搜救机器人、巡检机器人、物流机器人等。该研究有助于提高机器人在真实世界中的适应性和可靠性,降低部署和维护成本。
📄 摘要(原文)
Reinforcement Learning (RL) has shown its remarkable and generalizable capability in legged locomotion through sim-to-real transfer. However, while adaptive methods like domain randomization are expected to enhance policy robustness across diverse environments, they potentially compromise the policy's performance in any specific environment, leading to suboptimal real-world deployment due to the No Free Lunch theorem. To address this, we propose LoopSR, a lifelong policy adaptation framework that continuously refines RL policies in the post-deployment stage. LoopSR employs a transformer-based encoder to map real-world trajectories into a latent space and reconstruct a digital twin of the real world for further improvement. Autoencoder architecture and contrastive learning methods are adopted to enhance feature extraction of real-world dynamics. Simulation parameters for continual training are derived by combining predicted values from the decoder with retrieved parameters from a pre-collected simulation trajectory dataset. By leveraging simulated continual training, LoopSR achieves superior data efficiency compared with strong baselines, yielding eminent performance with limited data in both sim-to-sim and sim-to-real experiments. Please refer to https://peilinwu.site/looping-sim-and-real.github.io/ for videos and code.