Safe Navigation for Robotic Digestive Endoscopy via Human Intervention-based Reinforcement Learning

📄 arXiv: 2409.15688v2 📥 PDF

作者: Min Tan, Yushun Tao, Boyun Zheng, GaoSheng Xie, Lijuan Feng, Zeyang Xia, Jing Xiong

分类: cs.RO, cs.AI

发布日期: 2024-09-24 (更新: 2025-03-30)


💡 一句话要点

提出基于人类干预的强化学习方法HI-PPO,用于安全机器人消化内窥镜导航

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 机器人消化内窥镜 强化学习 人类干预 安全导航 近端策略优化

📋 核心要点

  1. 现有强化学习内窥镜导航算法缺乏人工干预,易发生碰撞,限制了临床应用。
  2. HI-PPO框架融合人类专家知识,通过增强探索、奖惩调整和行为克隆提升安全性。
  3. 实验表明,HI-PPO在仿真环境中达到与人类专家相当的导航性能,ATE为8.02mm,安全评分0.862。

📝 摘要(中文)

随着自动化机器人消化内窥镜(RDE)应用的日益广泛,确保其在非结构化和狭窄消化道内的安全高效导航已成为一项关键挑战。现有的自动化强化学习导航算法由于缺乏必要的人工干预,常常导致潜在的碰撞风险,这极大地限制了RDE在实际临床实践中的安全性和有效性。为了解决这一局限性,我们提出了一种基于人类干预(HI)的近端策略优化(PPO)框架,称为HI-PPO,该框架结合了专家知识来增强RDE的安全性。具体而言,HI-PPO结合了增强探索机制(EEM)、奖励-惩罚调整(RPA)和行为克隆相似性(BCS),以解决PPO在复杂胃肠道环境中进行安全导航时存在的探索效率低下问题。在仿真平台上进行的对比实验结果表明,HI-PPO实现了8.02毫米的平均轨迹误差(ATE)和0.862的安全评分,表现出与人类专家相当的性能。代码将在论文发表后公开。

🔬 方法详解

问题定义:论文旨在解决机器人消化内窥镜(RDE)在复杂且狭窄的消化道环境中安全导航的问题。现有的基于强化学习的RDE导航方法,由于缺乏必要的人工干预,容易发生碰撞,导致安全性不足,难以满足临床应用的需求。这些方法在探索过程中可能进入危险区域,且难以从人类专家的经验中学习。

核心思路:论文的核心思路是将人类专家的知识融入到强化学习训练过程中,通过人类干预来指导智能体的探索,从而提高RDE导航的安全性。具体来说,通过增强探索机制鼓励智能体探索安全区域,通过奖励-惩罚调整来避免危险行为,并通过行为克隆相似性来学习人类专家的导航策略。

技术框架:HI-PPO框架基于近端策略优化(PPO)算法,并在此基础上集成了三个关键模块:增强探索机制(EEM)、奖励-惩罚调整(RPA)和行为克隆相似性(BCS)。EEM用于引导智能体探索更有希望的区域;RPA用于对智能体的行为进行奖惩,避免碰撞;BCS用于学习人类专家的导航策略。整体流程是,智能体在环境中进行探索,EEM引导探索方向,RPA调整奖励信号,BCS提供行为指导,PPO算法根据这些信息更新策略。

关键创新:论文的关键创新在于将人类干预融入到强化学习训练过程中,提出了一种新颖的HI-PPO框架。与传统的强化学习方法相比,HI-PPO能够利用人类专家的知识来提高RDE导航的安全性,避免了盲目探索可能带来的风险。通过EEM、RPA和BCS三个模块的协同作用,HI-PPO能够更有效地学习到安全且高效的导航策略。

关键设计:增强探索机制(EEM)通过引入额外的奖励来鼓励智能体探索未知的、但潜在安全的区域。奖励-惩罚调整(RPA)通过对碰撞行为施加惩罚,对安全行为给予奖励,从而引导智能体学习避免碰撞。行为克隆相似性(BCS)通过最小化智能体行为与人类专家行为之间的差异,从而学习人类专家的导航策略。损失函数是PPO的损失函数加上BCS的损失函数,用于平衡探索和学习专家经验。网络结构采用Actor-Critic网络,Actor网络输出动作策略,Critic网络评估状态价值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HI-PPO在仿真环境中取得了显著的性能提升。与传统的PPO算法相比,HI-PPO能够更有效地避免碰撞,并达到与人类专家相当的导航性能。具体而言,HI-PPO实现了8.02毫米的平均轨迹误差(ATE)和0.862的安全评分,证明了其在安全性和导航精度方面的优势。

🎯 应用场景

该研究成果可应用于自动化机器人消化内窥镜导航,提高内窥镜检查的安全性与效率,减轻医生的操作负担。此外,该方法也可推广到其他医疗机器人领域,例如微创手术机器人、胶囊内窥镜等,具有广阔的应用前景和重要的临床价值。未来,该技术有望实现更智能、更安全的医疗服务。

📄 摘要(原文)

With the increasing application of automated robotic digestive endoscopy (RDE), ensuring safe and efficient navigation in the unstructured and narrow digestive tract has become a critical challenge. Existing automated reinforcement learning navigation algorithms often result in potentially risky collisions due to the absence of essential human intervention, which significantly limits the safety and effectiveness of RDE in actual clinical practice. To address this limitation, we proposed a Human Intervention (HI)-based Proximal Policy Optimization (PPO) framework, dubbed HI-PPO, which incorporates expert knowledge to enhance RDE's safety. Specifically, HI-PPO combines Enhanced Exploration Mechanism (EEM), Reward-Penalty Adjustment (RPA), and Behavior Cloning Similarity (BCS) to address PPO's exploration inefficiencies for safe navigation in complex gastrointestinal environments. Comparative experiments were conducted on a simulation platform, and the results showed that HI-PPO achieved a mean ATE (Average Trajectory Error) of (8.02\ \text{mm}) and a Security Score of (0.862), demonstrating performance comparable to human experts. The code will be publicly available once this paper is published.