Visuomotor Grasping with World Models for Surgical Robots
作者: Hongbin Lin, Bin Li, Kwok Wai Samuel Au
分类: cs.RO, cs.AI
发布日期: 2025-08-15
💡 一句话要点
提出GASv2以解决外科机器人抓取中的视觉运动学习问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机器人抓取 视觉运动学习 外科机器人 世界模型 混合控制系统 领域随机化 自动化手术
📋 核心要点
- 现有方法依赖于物体姿态跟踪和手工特征,限制了对新物体的泛化能力和鲁棒性。
- 提出GASv2框架,利用世界模型和单一立体相机进行视觉运动学习,解决抓取任务。
- 实验表明,GASv2在不同外科设置下成功率达到65%,并能适应未见物体和干扰。
📝 摘要(中文)
抓取是机器人辅助外科手术中的基本任务,自动化抓取可以减轻外科医生的工作负担,提高效率、安全性和一致性。现有方法依赖于显式的物体姿态跟踪或手工设计的视觉特征,限制了其对新物体的泛化能力和对视觉干扰的鲁棒性。本文提出了GASv2,一个基于世界模型的视觉运动学习框架,旨在解决外科场景中的抓取问题。GASv2通过单一立体相机对进行视觉观察,结合混合控制系统实现安全执行。实验结果表明,该政策在不同设置下的成功率达到65%,并能适应未见物体和不同干扰,展现出强大的性能和鲁棒性。
🔬 方法详解
问题定义:本文解决的是外科机器人抓取任务中的视觉运动学习问题。现有方法依赖于物体姿态跟踪和手工特征,导致在新物体和视觉干扰下的泛化能力不足。
核心思路:GASv2框架通过使用世界模型和单一立体相机,简化了视觉观察过程,并结合混合控制系统以确保抓取的安全性和精确性。
技术框架:GASv2的整体架构包括视觉感知模块、世界模型构建、策略训练和混合控制系统。首先,通过立体相机获取视觉信息,然后利用世界模型进行策略训练,最后在实际环境中执行抓取任务。
关键创新:GASv2的主要创新在于其能够在不需要重训练的情况下,使用单一策略实现对多样化、未见外科物体的抓取。这一特性显著提高了系统的通用性和适应性。
关键设计:在训练过程中,采用领域随机化技术以实现从模拟到现实的迁移。损失函数设计考虑了抓取成功率和安全性,网络结构则基于深度学习框架,优化了视觉特征提取和决策过程。
📊 实验亮点
GASv2在不同的外科设置下实现了65%的成功率,展示了其在未见物体和多样化干扰下的强大适应能力。与传统方法相比,该框架显著提高了抓取任务的鲁棒性和通用性,标志着视觉运动学习在外科机器人中的成功应用。
🎯 应用场景
该研究具有广泛的应用潜力,特别是在机器人辅助外科手术中。通过提高抓取的自动化水平,GASv2可以显著减轻外科医生的工作负担,提高手术的安全性和效率。此外,该技术的通用性使其能够适应不同类型的外科物体,未来可能扩展到其他领域的机器人操作。
📄 摘要(原文)
Grasping is a fundamental task in robot-assisted surgery (RAS), and automating it can reduce surgeon workload while enhancing efficiency, safety, and consistency beyond teleoperated systems. Most prior approaches rely on explicit object pose tracking or handcrafted visual features, limiting their generalization to novel objects, robustness to visual disturbances, and the ability to handle deformable objects. Visuomotor learning offers a promising alternative, but deploying it in RAS presents unique challenges, such as low signal-to-noise ratio in visual observations, demands for high safety and millimeter-level precision, as well as the complex surgical environment. This paper addresses three key challenges: (i) sim-to-real transfer of visuomotor policies to ex vivo surgical scenes, (ii) visuomotor learning using only a single stereo camera pair -- the standard RAS setup, and (iii) object-agnostic grasping with a single policy that generalizes to diverse, unseen surgical objects without retraining or task-specific models. We introduce Grasp Anything for Surgery V2 (GASv2), a visuomotor learning framework for surgical grasping. GASv2 leverages a world-model-based architecture and a surgical perception pipeline for visual observations, combined with a hybrid control system for safe execution. We train the policy in simulation using domain randomization for sim-to-real transfer and deploy it on a real robot in both phantom-based and ex vivo surgical settings, using only a single pair of endoscopic cameras. Extensive experiments show our policy achieves a 65% success rate in both settings, generalizes to unseen objects and grippers, and adapts to diverse disturbances, demonstrating strong performance, generality, and robustness.