World Models for General Surgical Grasping
作者: Hongbin Lin, Bin Li, Chun Wai Wong, Juan Rojas, Xiangyu Chu, Kwok Wai Samuel Au
分类: cs.RO, cs.AI
发布日期: 2024-05-28
期刊: Robotics: Science and Systems 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于世界模型的深度强化学习框架GAS,用于通用外科手术抓取
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 外科手术机器人 深度强化学习 世界模型 视觉运动控制 通用抓取
📋 核心要点
- 现有手术机器人视觉控制方法依赖姿态估计和特征跟踪,难以适应未知物体和复杂扰动。
- GAS框架基于世界模型,通过深度强化学习像素级视觉运动策略,提升抓取的通用性和鲁棒性。
- 实验表明,GAS在真实手术环境中能成功抓取多种物体,并对感知和控制扰动具有鲁棒性,成功率达69%。
📝 摘要(中文)
本文提出了一种基于世界模型的深度强化学习框架“Grasp Anything for Surgery”(GAS),用于外科手术机器人的智能视觉控制系统,使其能够适应未知和多样化的物体,并对系统扰动具有鲁棒性。该方法通过学习像素级的视觉运动策略来进行手术抓取,从而增强了通用性和鲁棒性。特别地,提出了一种新方法,基于物体尺寸的经验先验,估计刚性连接物体不精确区域的深度像素值和不确定性。任务物体的深度和掩码图像被编码成一个紧凑的3通道图像(尺寸:64x64x3),通过动态放大掩码区域来最小化信息损失。所学习的控制器在模拟和真实机器人中进行了广泛的评估。实验结果表明,该视觉运动策略能够处理:i) 未见过的物体,包括5种类型的目标抓取物体和一个机器人夹爪,在非结构化的真实世界手术环境中;ii) 感知和控制中的扰动。该系统是第一个实现统一的外科控制系统,能够在复杂的手术场景中使用不同的机器人夹爪抓取各种手术物体(平均成功率:69%),并且在6种条件下表现出显著的鲁棒性,包括背景变化、目标扰动、相机姿态变化、运动学控制误差、图像噪声以及抓取目标物体从夹爪掉落后的重新抓取。
🔬 方法详解
问题定义:现有外科手术机器人视觉控制系统主要依赖于姿态估计和特征跟踪,这使得它们难以适应手术环境中未知和多样化的物体,并且对系统扰动的鲁棒性较差。这些方法通常需要精确的物体模型或特征,难以处理真实手术场景中的复杂性和不确定性。
核心思路:本文的核心思路是利用深度强化学习学习一个像素级别的视觉运动策略,该策略直接从图像像素推断出抓取动作,而无需显式的姿态估计或特征提取。通过构建一个世界模型,该模型能够预测环境的状态和奖励,从而使智能体能够在模拟环境中学习到有效的抓取策略,并将其迁移到真实世界。这种方法的关键在于学习一个能够泛化到不同物体和扰动的鲁棒策略。
技术框架:GAS框架包含以下主要模块:1) 感知模块:用于从深度和掩码图像中提取紧凑的3通道图像表示;2) 世界模型:用于预测环境的状态和奖励;3) 策略网络:用于根据当前状态选择抓取动作;4) 强化学习算法:用于训练策略网络和世界模型。整体流程是,首先通过感知模块将深度和掩码图像编码成紧凑的表示,然后将该表示输入到世界模型中,世界模型预测下一个状态和奖励,策略网络根据当前状态选择抓取动作,最后通过强化学习算法更新策略网络和世界模型。
关键创新:本文最重要的技术创新点在于提出了一种新的深度像素值和不确定性估计方法,该方法基于物体尺寸的经验先验,估计刚性连接物体不精确区域的深度像素值和不确定性。此外,通过动态放大掩码区域,将深度和掩码图像编码成一个紧凑的3通道图像,从而最小化信息损失。与现有方法相比,该方法无需显式的姿态估计或特征提取,能够直接从图像像素推断出抓取动作,从而提高了抓取的通用性和鲁棒性。
关键设计:在感知模块中,深度和掩码图像被编码成一个紧凑的3通道图像(尺寸:64x64x3),通过动态放大掩码区域来最小化信息损失。在强化学习算法中,使用了PPO(Proximal Policy Optimization)算法来训练策略网络和世界模型。奖励函数的设计考虑了抓取的成功率和效率。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GAS框架在真实手术环境中能够成功抓取多种物体,包括5种类型的目标抓取物体和一个机器人夹爪。该系统在非结构化的真实世界手术环境中表现出良好的通用性和鲁棒性,平均成功率达到69%。此外,该系统在6种条件下表现出显著的鲁棒性,包括背景变化、目标扰动、相机姿态变化、运动学控制误差、图像噪声以及抓取目标物体从夹爪掉落后的重新抓取。
🎯 应用场景
该研究成果可应用于各种外科手术机器人,提高手术的自动化程度和精度,降低手术风险。此外,该方法还可以扩展到其他需要通用抓取能力的机器人应用中,例如物流、制造和家庭服务等领域。未来,该研究有望推动机器人技术在医疗领域的广泛应用,并为患者带来更好的治疗效果。
📄 摘要(原文)
Intelligent vision control systems for surgical robots should adapt to unknown and diverse objects while being robust to system disturbances. Previous methods did not meet these requirements due to mainly relying on pose estimation and feature tracking. We propose a world-model-based deep reinforcement learning framework "Grasp Anything for Surgery" (GAS), that learns a pixel-level visuomotor policy for surgical grasping, enhancing both generality and robustness. In particular, a novel method is proposed to estimate the values and uncertainties of depth pixels for a rigid-link object's inaccurate region based on the empirical prior of the object's size; both depth and mask images of task objects are encoded to a single compact 3-channel image (size: 64x64x3) by dynamically zooming in the mask regions, minimizing the information loss. The learned controller's effectiveness is extensively evaluated in simulation and in a real robot. Our learned visuomotor policy handles: i) unseen objects, including 5 types of target grasping objects and a robot gripper, in unstructured real-world surgery environments, and ii) disturbances in perception and control. Note that we are the first work to achieve a unified surgical control system that grasps diverse surgical objects using different robot grippers on real robots in complex surgery scenes (average success rate: 69%). Our system also demonstrates significant robustness across 6 conditions including background variation, target disturbance, camera pose variation, kinematic control error, image noise, and re-grasping after the gripped target object drops from the gripper. Videos and codes can be found on our project page: https://linhongbin.github.io/gas/.