Toward Safe Autonomous Robotic Endovascular Interventions using World Models

📄 arXiv: 2604.20151v1 📥 PDF

作者: Harry Robertshaw, Nikola Fischer, Han-Ru Wu, Andrea Walker Perez, Weiyuan Deng, Benjamin Jackson, Christos Bergeles, Alejandro Granados, Thomas C Booth

分类: cs.RO, cs.LG

发布日期: 2026-04-22

备注: This manuscript is a preprint and has been submitted to the IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS) 2026


💡 一句话要点

提出基于世界模型的TD-MPC2算法,实现安全自主的机器人血管内介入

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 血管内介入 自主导航 机械取栓术 世界模型 模型预测控制 强化学习 TD-MPC2

📋 核心要点

  1. 现有强化学习方法在血管内导航中鲁棒性不足,难以应对复杂多变的血管结构和长距离导航。
  2. 提出基于世界模型的TD-MPC2框架,结合规划和学习动态,提升自主导航的成功率和安全性。
  3. 实验表明,TD-MPC2在模拟和体外实验中均优于SAC,且接触力远低于血管破裂阈值。

📝 摘要(中文)

自主机械取栓术(MT)面临血管几何形状高度可变以及精确实时控制的需求等重大挑战。强化学习(RL)已成为血管内导航自动化的有前景的范例,但现有方法在面对不同的患者解剖结构或较长的导航范围时,鲁棒性有限。本文研究了一种基于世界模型的自主血管内导航框架,该框架建立在TD-MPC2之上,TD-MPC2是一种结合了规划和学习动态的模型强化学习方法。我们评估了一个在多个导航任务上训练的TD-MPC2智能体,并在患者特定的血管结构中对其性能进行基准测试,并与最先进的软演员-评论家(SAC)算法智能体进行比较。两种方法都在荧光镜引导下,使用患者特定的血管模型进行体外验证。在模拟中,TD-MPC2的平均成功率明显高于SAC(58% vs. 36%,p < 0.001),平均尖端接触力为0.15 N,远低于建议的1.5 N血管破裂阈值。在体外实验中,TD-MPC2(68%)的平均成功率与SAC(60%)相当,但TD-MPC2实现了更高的路径比率(p = 0.017),但代价是更长的手术时间(p < 0.001)。这些结果首次展示了在计算机模拟数据和荧光镜引导的体外实验中验证的自主MT导航,突出了世界模型在安全和可泛化的AI辅助血管内介入中的前景。

🔬 方法详解

问题定义:论文旨在解决自主机械取栓术中,由于血管几何形状复杂多变,以及需要精确的实时控制所带来的挑战。现有的强化学习方法在面对不同患者的血管结构或较长的导航距离时,鲁棒性不足,难以保证手术的安全性和成功率。

核心思路:论文的核心思路是利用世界模型来学习血管环境的动态特性,并结合模型预测控制(MPC)进行规划。通过学习环境模型,智能体可以预测未来状态,从而做出更明智的决策,提高导航的成功率和安全性。TD-MPC2算法将学习到的动态模型与规划相结合,能够更好地适应不同的血管结构和导航任务。

技术框架:整体框架包含以下几个主要模块:1) 环境模型学习模块:使用神经网络学习血管环境的动态特性,包括导管的运动规律和血管的形变等。2) 模型预测控制模块:利用学习到的环境模型,预测未来一段时间内的状态,并选择最优的控制策略。3) 强化学习训练模块:使用TD-MPC2算法训练智能体,使其能够根据当前状态和环境模型,选择最优的动作。4) 仿真环境和体外实验验证模块:在仿真环境中评估算法的性能,并在体外实验中使用患者特定的血管模型进行验证。

关键创新:论文的关键创新在于将世界模型与模型预测控制相结合,用于自主血管内导航。与传统的强化学习方法相比,该方法能够更好地利用环境信息,提高导航的成功率和安全性。此外,论文还首次在计算机模拟和体外实验中验证了自主MT导航,证明了该方法在实际应用中的可行性。

关键设计:TD-MPC2算法是关键。具体参数设置和网络结构未详细描述,但核心在于学习一个准确的环境动态模型,并将其用于模型预测控制。损失函数的设计需要考虑导航的成功率、安全性以及手术时间等因素。网络结构的选择需要根据血管环境的复杂程度进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TD-MPC2在模拟环境中平均成功率显著高于SAC(58% vs. 36%,p < 0.001),平均尖端接触力为0.15 N,远低于1.5 N的血管破裂阈值。在体外实验中,TD-MPC2的平均成功率与SAC相当(68% vs. 60%),但路径比率更高(p = 0.017),尽管手术时间略长(p < 0.001)。

🎯 应用场景

该研究成果可应用于自主机器人血管内介入手术,例如机械取栓术、血管成形术等。通过提高手术的精确性和安全性,有望减少手术并发症,缩短手术时间,并降低医生的工作负担。未来,该技术还可扩展到其他微创手术领域,实现更智能化的医疗服务。

📄 摘要(原文)

Autonomous mechanical thrombectomy (MT) presents substantial challenges due to highly variable vascular geometries and the requirements for accurate, real-time control. While reinforcement learning (RL) has emerged as a promising paradigm for the automation of endovascular navigation, existing approaches often show limited robustness when faced with diverse patient anatomies or extended navigation horizons. In this work, we investigate a world-model-based framework for autonomous endovascular navigation built on TD-MPC2, a model-based RL method that integrates planning and learned dynamics. We evaluate a TD-MPC2 agent trained on multiple navigation tasks across hold out patient-specific vasculatures and benchmark its performance against the state-of-the-art Soft Actor-Critic (SAC) algorithm agent. Both approaches are further validated in vitro using patient-specific vascular phantoms under fluoroscopic guidance. In simulation, TD-MPC2 demonstrates a significantly higher mean success rate than SAC (58% vs. 36%, p < 0.001), and mean tip contact forces of 0.15 N, well below the proposed 1.5 N vessel rupture threshold. Mean success rates for TD-MPC2 (68%) were comparable to SAC (60%) in vitro, but TD-MPC2 achieved superior path ratios (p = 0.017) at the cost of longer procedure times (p < 0.001). Together, these results provide the first demonstration of autonomous MT navigation validated across both hold out in silico data and fluoroscopy-guided in vitro experiments, highlighting the promise of world models for safe and generalizable AI-assisted endovascular interventions.