QuadWBG: Generalizable Quadrupedal Whole-Body Grasping
作者: Jilong Wang, Javokhirbek Rajabov, Chaoyi Xu, Yiming Zheng, He Wang
分类: cs.RO, cs.AI, cs.LG, eess.SY
发布日期: 2024-11-11 (更新: 2025-01-13)
💡 一句话要点
QuadWBG:基于单目视觉的通用四足机器人全身抓取框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 四足机器人 全身抓取 强化学习 单目视觉 广义朝向可达性图
📋 核心要点
- 现有四足机器人操作方法难以将稳健的运动控制和精确的操作控制无缝集成,限制了其在现实场景中的应用。
- 该论文提出一种模块化框架,利用强化学习训练低层运动策略,并结合广义朝向可达性图引导高层抓取策略。
- 实验结果表明,该系统在真实环境中实现了89%的一次性抓取精度,能够处理大型工作空间内的多种操作任务。
📝 摘要(中文)
本文提出了一种模块化的框架,用于实现鲁棒且通用的四足机器人全身抓取控制,该框架基于单个安装在机械臂上的摄像头。通过强化学习(RL),我们实现了一个鲁棒的低层策略,用于执行5维(5D)指令,以及一个由新颖指标——广义朝向可达性图(Generalized Oriented Reachability Map, GORM)引导的、具有抓取感知能力的高层策略。所提出的系统在真实世界中实现了最先进的一次性抓取精度,达到89%,包括抓取透明物体等具有挑战性的任务。通过大量的仿真和真实世界实验,我们证明了我们的系统可以有效地管理从地板到高于身体高度的大型工作空间,并执行各种全身运动操作任务。
🔬 方法详解
问题定义:现有四足机器人操作方法难以将运动控制和操作控制有效结合,导致全身协同操作能力不足,尤其是在复杂环境和需要精细操作的任务中,例如抓取透明物体或在高低不同的位置进行操作。现有方法通常依赖于复杂的模型或需要大量人工调整,泛化能力有限。
核心思路:该论文的核心思路是将全身抓取任务分解为低层运动控制和高层抓取策略两个部分,并分别使用强化学习和广义朝向可达性图进行优化。低层策略负责执行运动指令,高层策略负责规划抓取姿态,从而实现全身协同操作。这种模块化的设计提高了系统的鲁棒性和泛化能力。
技术框架:该框架包含以下主要模块:1) 基于单目视觉的感知模块,用于识别目标物体并估计其位姿;2) 基于强化学习的低层运动控制策略,用于执行5D运动指令;3) 基于广义朝向可达性图(GORM)的高层抓取策略,用于规划抓取姿态;4) 全身运动规划器,用于生成无碰撞的全身运动轨迹。整个流程是:首先,感知模块识别目标物体;然后,高层抓取策略根据GORM生成抓取姿态;接着,全身运动规划器生成运动轨迹;最后,低层运动控制策略执行运动指令,完成抓取任务。
关键创新:该论文的关键创新在于提出了广义朝向可达性图(GORM),用于指导高层抓取策略。GORM是一种新的度量,用于评估不同抓取姿态的可达性和稳定性,从而提高抓取成功率。此外,使用强化学习训练低层运动控制策略,提高了系统的鲁棒性和适应性。
关键设计:低层运动控制策略使用深度强化学习算法训练,奖励函数的设计考虑了运动效率、稳定性以及对指令的跟踪精度。GORM的计算考虑了机器人的运动学约束、环境的几何信息以及抓取姿态的稳定性。高层抓取策略使用GORM作为指导,选择最优的抓取姿态。具体参数设置和网络结构等技术细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
该系统在真实世界中实现了89%的一次性抓取精度,优于现有方法。特别是在抓取透明物体等具有挑战性的任务中,也表现出良好的性能。实验结果表明,该系统能够有效地管理大型工作空间,并执行多种全身运动操作任务,验证了其鲁棒性和泛化能力。
🎯 应用场景
该研究成果可应用于家庭服务机器人、城市维护机器人等领域,例如帮助人类完成家务、进行高空作业、清理危险物品等。通过提高四足机器人的全身操作能力,可以使其在复杂环境中执行更多任务,从而提高工作效率和安全性。未来,该技术有望在医疗、物流等领域得到广泛应用。
📄 摘要(原文)
Legged robots with advanced manipulation capabilities have the potential to significantly improve household duties and urban maintenance. Despite considerable progress in developing robust locomotion and precise manipulation methods, seamlessly integrating these into cohesive whole-body control for real-world applications remains challenging. In this paper, we present a modular framework for robust and generalizable whole-body loco-manipulation controller based on a single arm-mounted camera. By using reinforcement learning (RL), we enable a robust low-level policy for command execution over 5 dimensions (5D) and a grasp-aware high-level policy guided by a novel metric, Generalized Oriented Reachability Map (GORM). The proposed system achieves state-of-the-art one-time grasping accuracy of 89% in the real world, including challenging tasks such as grasping transparent objects. Through extensive simulations and real-world experiments, we demonstrate that our system can effectively manage a large workspace, from floor level to above body height, and perform diverse whole-body loco-manipulation tasks.