SLIM: Sim-to-Real Legged Instructive Manipulation via Long-Horizon Visuomotor Learning
作者: Haichao Zhang, Haonan Yu, Le Zhao, Andrew Choi, Qinxun Bai, Break Yang, Wei Xu
分类: cs.RO, cs.AI, cs.CV, cs.LG
发布日期: 2025-01-17 (更新: 2025-01-29)
💡 一句话要点
提出SLIM,通过纯模拟强化学习训练低成本四足机器人完成长时程操作任务。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 移动操作 强化学习 模拟到真实 长时程任务
📋 核心要点
- 现有移动操作机器人系统通常依赖昂贵设备,且在复杂长时程任务中泛化性不足。
- SLIM采用分层强化学习,在高层策略中利用师生学习,并结合多种技术缩小模拟与现实差距。
- 实验表明,SLIM在低成本硬件上实现了接近80%的真实世界成功率,效率优于人工遥操作。
📝 摘要(中文)
本文提出了一种低成本的四足移动操作机器人系统,该系统通过纯模拟环境中的强化学习训练,能够解决长时程的真实世界任务。该系统的实现得益于:1) 视觉移动操作高层策略和四足运动底层策略的分层设计,遵循任务指令;2) 高层策略的师生训练流程,训练教师网络利用特权的任务分解和目标对象信息来处理长时程任务,并进一步训练学生网络,通过教师行为引导的强化学习进行视觉移动操作;3) 一系列最小化模拟到真实差距的技术。与许多使用高端设备的前期工作不同,我们的系统展示了在更易于获得的硬件(具体来说,是宇树Go1四足机器人、WidowX-250S机械臂和一个腕部RGB相机)上的有效性能,尽管模拟到真实的迁移带来了更大的挑战。在完全模拟环境中训练后,单个策略能够自主解决涉及搜索、移动到、抓取、运输和放入的长时程任务,实现了近80%的真实世界成功率。这一性能与同一任务上的人工专家遥操作相当,同时机器人效率更高,运行速度约为遥操作的1.5倍。最后,我们对高效强化学习训练和有效模拟到真实迁移的关键技术进行了广泛的消融实验,并展示了在各种光照条件下的不同室内和室外场景中的有效部署。
🔬 方法详解
问题定义:论文旨在解决低成本四足机器人如何在真实环境中完成长时程的视觉移动操作任务。现有方法通常依赖于昂贵的硬件设备,并且在模拟到真实的迁移过程中面临挑战,难以在真实世界中泛化。此外,长时程任务需要有效的探索策略和任务分解方法,而传统的强化学习方法难以直接应用。
核心思路:论文的核心思路是采用分层强化学习,将任务分解为高层视觉移动操作策略和底层四足运动策略。高层策略通过师生学习框架进行训练,教师网络利用特权信息进行任务分解和目标引导,学生网络则通过模仿学习和强化学习相结合的方式进行训练,从而实现从模拟到真实的有效迁移。同时,论文还采用了一系列技术来缩小模拟和真实环境之间的差距。
技术框架:整体框架包含三个主要部分:1)高层策略:负责视觉移动操作,包括搜索、移动、抓取、运输和放置等动作。该策略通过强化学习进行训练,并使用教师网络进行指导。2)底层策略:负责四足机器人的运动控制,例如行走、转弯和站立。该策略可以预先训练或使用现有的运动控制算法。3)模拟环境:用于训练高层策略,并使用一系列技术来模拟真实世界的物理特性和视觉效果。
关键创新:论文的关键创新在于:1)提出了一个师生学习框架,用于训练高层视觉移动操作策略。教师网络利用特权信息进行任务分解和目标引导,学生网络则通过模仿学习和强化学习相结合的方式进行训练,从而提高了训练效率和泛化能力。2)采用了一系列技术来缩小模拟和真实环境之间的差距,例如随机化物理参数、添加噪声和使用逼真的渲染效果。3)在低成本硬件平台上实现了长时程视觉移动操作任务的成功。
关键设计:高层策略使用深度神经网络进行建模,输入包括RGB图像、目标位置和任务指令,输出为机器人的动作。教师网络使用特权信息,例如目标对象的精确位置和任务分解信息。学生网络则通过模仿学习和强化学习相结合的方式进行训练,损失函数包括模仿学习损失和强化学习奖励。模拟环境使用PyBullet物理引擎进行建模,并使用一系列技术来模拟真实世界的物理特性和视觉效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SLIM在真实世界中实现了近80%的成功率,能够自主完成涉及搜索、移动到、抓取、运输和放入的长时程任务。与人工专家遥操作相比,SLIM的效率更高,运行速度约为遥操作的1.5倍。消融实验验证了师生学习框架和模拟到真实迁移技术的有效性。
🎯 应用场景
该研究成果可应用于物流、仓储、家庭服务、灾难救援等领域。低成本的四足移动操作机器人能够在复杂环境中执行各种任务,例如物品搬运、环境探索和目标搜索。该技术还有潜力应用于自动化生产线和智能家居等场景,提高生产效率和服务质量。
📄 摘要(原文)
We present a low-cost legged mobile manipulation system that solves long-horizon real-world tasks, trained by reinforcement learning purely in simulation. This system is made possible by 1) a hierarchical design of a high-level policy for visual-mobile manipulation following task instructions, and a low-level quadruped locomotion policy, 2) a teacher and student training pipeline for the high level, which trains a teacher to tackle long-horizon tasks using privileged task decomposition and target object information, and further trains a student for visual-mobile manipulation via RL guided by the teacher's behavior, and 3) a suite of techniques for minimizing the sim-to-real gap. In contrast to many previous works that use high-end equipments, our system demonstrates effective performance with more accessible hardware -- specifically, a Unitree Go1 quadruped, a WidowX-250S arm, and a single wrist-mounted RGB camera -- despite the increased challenges of sim-to-real transfer. Trained fully in simulation, a single policy autonomously solves long-horizon tasks involving search, move to, grasp, transport, and drop into, achieving nearly 80% real-world success. This performance is comparable to that of expert human teleoperation on the same tasks while the robot is more efficient, operating at about 1.5x the speed of the teleoperation. Finally, we perform extensive ablations on key techniques for efficient RL training and effective sim-to-real transfer, and demonstrate effective deployment across diverse indoor and outdoor scenes under various lighting conditions.