Autonomous navigation of catheters and guidewires in mechanical thrombectomy using inverse reinforcement learning
作者: Harry Robertshaw, Lennart Karstensen, Benjamin Jackson, Alejandro Granados, Thomas C. Booth
分类: cs.LG, cs.AI, cs.RO
发布日期: 2024-06-18
备注: Abstract shortened for arXiv character limit
期刊: Int J CARS (2024)
DOI: 10.1007/s11548-024-03208-w
💡 一句话要点
提出基于逆强化学习的导管自主导航方法,用于机械取栓术。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 逆强化学习 机械取栓术 自主导航 血管内介入 强化学习 奖励塑造 软Actor-Critic
📋 核心要点
- 现有强化学习在血管内导航中应用受限,缺乏有效的奖励信号难以训练。
- 利用逆强化学习从专家演示中学习奖励函数,实现导管和导丝的自主导航。
- 实验表明,奖励塑造方法训练的模型性能最佳,成功率达100%,手术时间最短。
📝 摘要(中文)
本研究旨在通过导管和导丝的自主导航来提高血管内手术的安全性和有效性,从而缩短手术时间和减少操作者的辐射暴露。远程操作机器人可以扩大对时间敏感的紧急手术(如机械取栓术(MT))的可及性。强化学习(RL)在血管内导航中显示出潜力,但其应用在没有奖励信号的情况下会遇到挑战。本研究探索了使用逆强化学习(IRL)利用专家演示在MT血管中进行自主导航的可行性。本研究建立了一个基于仿真的MT导航训练和评估环境。我们使用IRL从导航导丝和导管的专家行为中推断奖励函数。我们利用软Actor-Critic训练具有各种奖励函数的模型,并在计算机中比较它们的性能。结果表明,使用IRL导航是可行的。在评估单设备与双设备(即导丝与导管和导丝)跟踪时,两种方法都达到了95%和96%的高成功率。然而,双重跟踪使用了两种设备,模仿了专家。通过奖励塑造获得的奖励函数进行训练时,成功率为100%,手术时间为22.6秒,优于密集奖励函数(96%,24.9秒)和IRL导出的奖励函数(48%,59.2秒)。结论是,我们通过使用IRL,为自主血管内介入导航(特别是MT)的发展做出了贡献。结果强调了使用奖励塑造训练模型的潜力,为提高MT的可及性和精确性提供了一个有希望的途径。我们设想未来的研究可以将我们的方法扩展到不同的解剖结构,以提高泛化性。
🔬 方法详解
问题定义:论文旨在解决机械取栓术中导管和导丝的自主导航问题。现有方法依赖于人工操作,存在手术时间长、操作者辐射暴露高等问题。直接使用强化学习进行训练,由于缺乏有效的奖励信号,难以获得理想的导航策略。
核心思路:论文的核心思路是利用逆强化学习(IRL)从专家演示数据中学习奖励函数。通过学习专家行为背后的奖励机制,可以为强化学习提供有效的训练信号,从而实现自主导航。
技术框架:整体框架包括三个主要部分:1) 建立基于仿真的MT导航环境;2) 使用IRL从专家演示数据中学习奖励函数;3) 使用软Actor-Critic算法训练导航策略。具体流程是,首先收集专家操作导管和导丝的数据,然后使用IRL算法(具体算法未知)从这些数据中推断出奖励函数。最后,使用该奖励函数训练一个强化学习模型,使其能够自主地导航导管和导丝。
关键创新:论文的关键创新在于将逆强化学习应用于机械取栓术中的导管自主导航。通过从专家演示中学习奖励函数,克服了传统强化学习方法中奖励信号难以设计的难题。此外,论文还比较了不同奖励函数(包括IRL学习的奖励函数、密集奖励函数和奖励塑造的奖励函数)对导航性能的影响。
关键设计:论文使用了软Actor-Critic算法进行策略训练,具体参数设置未知。奖励函数的设计是关键,论文比较了三种不同的奖励函数:1) IRL学习的奖励函数;2) 密集奖励函数(具体形式未知);3) 奖励塑造的奖励函数(具体形式未知)。实验结果表明,奖励塑造的奖励函数效果最好。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用逆强化学习进行导管自主导航是可行的。通过奖励塑造获得的奖励函数进行训练时,成功率达到100%,手术时间为22.6秒,优于密集奖励函数(96%,24.9秒)和IRL导出的奖励函数(48%,59.2秒)。双设备跟踪(导管和导丝)的成功率也达到了96%。
🎯 应用场景
该研究成果可应用于机械取栓术等血管内介入手术的自动化。通过减少手术时间和操作者辐射暴露,提高手术的安全性和效率。远程机器人操作结合自主导航技术,有望扩大优质医疗资源的可及性,尤其是在偏远地区或紧急情况下。
📄 摘要(原文)
Purpose: Autonomous navigation of catheters and guidewires can enhance endovascular surgery safety and efficacy, reducing procedure times and operator radiation exposure. Integrating tele-operated robotics could widen access to time-sensitive emergency procedures like mechanical thrombectomy (MT). Reinforcement learning (RL) shows potential in endovascular navigation, yet its application encounters challenges without a reward signal. This study explores the viability of autonomous navigation in MT vasculature using inverse RL (IRL) to leverage expert demonstrations. Methods: This study established a simulation-based training and evaluation environment for MT navigation. We used IRL to infer reward functions from expert behaviour when navigating a guidewire and catheter. We utilized soft actor-critic to train models with various reward functions and compared their performance in silico. Results: We demonstrated feasibility of navigation using IRL. When evaluating single versus dual device (i.e. guidewire versus catheter and guidewire) tracking, both methods achieved high success rates of 95% and 96%, respectively. Dual-tracking, however, utilized both devices mimicking an expert. A success rate of 100% and procedure time of 22.6 s were obtained when training with a reward function obtained through reward shaping. This outperformed a dense reward function (96%, 24.9 s) and an IRL-derived reward function (48%, 59.2 s). Conclusions: We have contributed to the advancement of autonomous endovascular intervention navigation, particularly MT, by employing IRL. The results underscore the potential of using reward shaping to train models, offering a promising avenue for enhancing the accessibility and precision of MT. We envisage that future research can extend our methodology to diverse anatomical structures to enhance generalizability.