Learning Autonomous Surgical Irrigation and Suction with the da Vinci Research Kit Using Reinforcement Learning
作者: Yafei Ou, Mahdi Tavakoli
分类: cs.RO
发布日期: 2024-11-21 (更新: 2025-06-03)
备注: 15 pages, 17 figures
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于强化学习的达芬奇手术机器人自主灌注与抽吸方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 手术机器人 自主灌注 自主抽吸 领域随机化
📋 核心要点
- 微创手术中灌注-抽吸过程繁琐,人工操作效率较低,存在自动化需求。
- 利用强化学习,构建模拟环境训练智能体,实现自主灌注和抽吸,并通过领域随机化迁移到真实环境。
- 实验结果表明,该方法在真实环境中表现良好,能够有效减少污染物,初步验证了自主灌注-抽吸的可行性。
📝 摘要(中文)
本文研究了微创手术(MIS)中常见的灌注-抽吸过程的自动化,旨在实现手术视野的自主清洗。该过程包括将液体(通常是生理盐水)灌注到手术区域以稀释污染物,然后将液体抽出。虽然强化学习(RL)在手术子任务自动化方面取得了进展,但流体相关任务的自动化研究较少。本文开发了一个平台,用于创建模拟手术机器人学习环境和训练智能体,并构建了两个模拟环境,分别用于灌注和抽吸,具有视觉上逼真的流体渲染能力。通过领域随机化(DR)和精心设计的奖励函数,在模拟器中训练了两个智能体,并迁移到真实世界。对两个智能体的独立评估显示了令人满意的真实世界结果。自主灌注-抽吸试验将容器中的污染物从约5克减少到平均2.42克,但由于残留液体未被抽吸,导致总残留重量较高(4.40克)。
🔬 方法详解
问题定义:本文旨在解决微创手术中灌注和抽吸过程的自动化问题。现有的人工操作方式效率较低,且容易受到操作者经验和疲劳程度的影响,难以保证手术质量的一致性。因此,如何利用机器人技术实现自主的灌注和抽吸,提高手术效率和精度,是本文要解决的核心问题。
核心思路:本文的核心思路是利用强化学习训练智能体,使其能够自主地完成灌注和抽吸任务。通过构建模拟环境,并采用领域随机化技术,使智能体能够适应真实世界中的各种变化。同时,精心设计的奖励函数能够引导智能体学习最优的操作策略,从而实现高效的灌注和抽吸。
技术框架:本文的技术框架主要包括以下几个部分:1) 模拟环境的构建:利用仿真软件构建逼真的手术场景,包括手术器械、流体、污染物等;2) 智能体的设计:设计基于视觉的强化学习智能体,使其能够通过观察手术场景的图像来做出决策;3) 奖励函数的设计:设计能够引导智能体学习最优操作策略的奖励函数;4) 训练过程:在模拟环境中训练智能体,并采用领域随机化技术提高智能体的泛化能力;5) 真实世界部署:将训练好的智能体部署到真实的达芬奇手术机器人上,进行实际操作。
关键创新:本文的关键创新在于将强化学习应用于手术机器人自主灌注和抽吸任务。与传统的基于规则或示教的方法相比,强化学习能够使机器人自主地学习最优的操作策略,从而更好地适应各种复杂的手术场景。此外,本文还提出了基于视觉的强化学习方法,使机器人能够直接通过观察手术场景的图像来做出决策,无需人工干预。
关键设计:本文的关键设计包括:1) 模拟环境的逼真度:为了提高智能体在真实世界中的表现,本文尽可能地提高了模拟环境的逼真度,包括流体的渲染、光照效果等;2) 领域随机化的策略:为了使智能体能够适应真实世界中的各种变化,本文采用了领域随机化技术,包括随机改变手术场景的光照、颜色、纹理等;3) 奖励函数的设计:本文精心设计了奖励函数,包括灌注的奖励、抽吸的奖励、以及惩罚项等,以引导智能体学习最优的操作策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,自主灌注智能体在人工抽吸后,残留污染物平均为2.21克,与人工操作的1.90克接近。自主抽吸智能体在初始液体量超过20克的情况下,残留液体量为2.64克和2.24克。完全自主的灌注-抽吸试验将污染物从约5克减少到平均2.42克。这些结果验证了该方法在真实世界中的有效性。
🎯 应用场景
该研究成果可应用于微创手术机器人,实现手术过程中的自主灌注和抽吸,减少医生操作负担,提高手术效率和精度。未来可扩展到其他流体相关的医疗任务,如药物输送、组织冲洗等,具有广阔的应用前景。此外,该研究提出的模拟环境构建和强化学习训练方法,也可为其他手术机器人的自动化研究提供借鉴。
📄 摘要(原文)
The irrigation-suction process is a common procedure to rinse and clean up the surgical field in minimally invasive surgery (MIS). In this process, surgeons first irrigate liquid, typically saline, into the surgical scene for rinsing and diluting the contaminant, and then suction the liquid out of the surgical field. While recent advances have shown promising results in the application of reinforcement learning (RL) for automating surgical subtasks, fewer studies have explored the automation of fluid-related tasks. In this work, we explore the automation of both steps in the irrigation-suction procedure and train two vision-based RL agents to complete irrigation and suction autonomously. To achieve this, a platform is developed for creating simulated surgical robot learning environments and for training agents, and two simulated learning environments are built for irrigation and suction with visually plausible fluid rendering capabilities. With techniques such as domain randomization (DR) and carefully designed reward functions, two agents are trained in the simulator and transferred to the real world. Individual evaluations of both agents show satisfactory real-world results. With an initial amount of around 5 grams of contaminants, the irrigation agent ultimately achieved an average of 2.21 grams remaining after a manual suction. As a comparison, fully manual operation by a human results in 1.90 grams remaining. The suction agent achieved 2.64 and 2.24 grams of liquid remaining across two trial groups with more than 20 and 30 grams of initial liquid in the container. Fully autonomous irrigation-suction trials reduce the contaminant in the container from around 5 grams to an average of 2.42 grams, although yielding a higher total weight remaining (4.40) due to residual liquid not suctioned. Further information about the project is available at https://tbs-ualberta.github.io/CRESSim/.