Toward AI Autonomous Navigation for Mechanical Thrombectomy using Hierarchical Modular Multi-agent Reinforcement Learning (HM-MARL)
作者: Harry Robertshaw, Nikola Fischer, Lennart Karstensen, Benjamin Jackson, Xingyu Chen, S. M. Hadi Sadati, Christos Bergeles, Alejandro Granados, Thomas C Booth
分类: cs.RO, cs.LG
发布日期: 2026-02-20
备注: Published in IEEE Robotics and Automation Letters
期刊: IEEE Robotics and Automation Letters (2026)
💡 一句话要点
提出HM-MARL框架,实现机械取栓术中导管导丝的自主导航
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 机械取栓术 强化学习 多智能体 自主导航 分层学习
📋 核心要点
- 现有强化学习方法在血管内导航任务中泛化能力不足,尤其是在长距离导航任务中。
- 提出分层模块化多智能体强化学习(HM-MARL)框架,将复杂导航任务分解为多个子任务。
- 实验结果表明,HM-MARL在模拟和体外实验中均表现出良好的导航性能,但模拟到真实的迁移仍存在挑战。
📝 摘要(中文)
机械取栓术(MT)通常是大血管闭塞引起急性缺血性卒中的最佳治疗方法,但由于地理和后勤障碍,可及性受到限制。强化学习(RL)在自主血管内导航方面显示出前景,但跨“长”导航任务的泛化仍然具有挑战性。我们提出了一种分层模块化多智能体强化学习(HM-MARL)框架,用于体外自主双设备导航,从而实现高效且可泛化的导航。HM-MARL旨在自主导航导引导管和导丝从股动脉到颈内动脉(ICA)。采用模块化多智能体方法将复杂的导航任务分解为专门的子任务,每个子任务都使用Soft Actor-Critic RL进行训练。该框架在计算机模拟和体外试验台中进行了验证,以评估泛化性和实际可行性。在计算机模拟中,单个血管模型在个体解剖结构上实现了92-100%的成功率,而多血管模型在多个患者解剖结构上实现了56-80%的成功率。在体外,HM-MARL模型在100%的试验中成功地从股动脉导航到右侧颈总动脉,80%的试验成功导航到右侧ICA,但由于解剖结构和导航中使用的导管类型,在左侧血管的超人挑战中失败。这项研究首次展示了MT血管中的体外自主导航。虽然HM-MARL能够实现跨解剖结构的泛化,但模拟到真实的过渡带来了挑战。未来的工作将使用世界模型改进RL策略,并验证在未见过的体外数据上的性能,从而推进自主MT向临床转化。
🔬 方法详解
问题定义:论文旨在解决机械取栓术中导管和导丝的自主导航问题。现有方法,特别是传统的强化学习方法,在面对复杂的血管结构和长距离导航任务时,泛化能力不足,难以适应不同患者的血管解剖结构。
核心思路:论文的核心思路是将复杂的导航任务分解为多个更简单、更易于学习的子任务,并为每个子任务设计专门的智能体。通过分层和模块化的方式,提高模型的泛化能力和学习效率。这种分解允许模型专注于特定方面的导航,例如导丝的推进或导管的转向。
技术框架:HM-MARL框架包含以下主要模块:1) 任务分解模块:将整体导航任务分解为多个子任务,例如导丝推进、导管转向等。2) 多智能体模块:为每个子任务分配一个智能体,每个智能体负责学习其特定子任务的策略。3) 分层控制模块:负责协调各个智能体的行为,实现整体导航目标。框架使用Soft Actor-Critic (SAC) 算法训练每个智能体。
关键创新:该方法最重要的创新点在于其分层模块化的多智能体架构。与传统的单智能体强化学习方法相比,HM-MARL能够更好地处理复杂任务,提高泛化能力。通过将任务分解为多个子任务,每个智能体可以专注于学习特定的技能,从而提高学习效率。
关键设计:论文使用Soft Actor-Critic (SAC) 作为每个智能体的强化学习算法。SAC是一种off-policy的actor-critic算法,旨在最大化期望回报的同时,也最大化策略的熵,从而鼓励探索。具体参数设置在论文中未详细说明,但通常SAC会涉及学习率、折扣因子、目标网络更新频率等参数的调整。损失函数包括actor loss和critic loss,用于分别更新actor和critic网络。网络结构的选择也未详细说明,但通常会使用多层感知机或卷积神经网络来提取状态特征并输出动作。
🖼️ 关键图片
📊 实验亮点
在计算机模拟中,HM-MARL在单个血管模型上实现了92-100%的导航成功率,在多个患者血管模型上实现了56-80%的成功率。在体外实验中,HM-MARL成功地从股动脉导航到右侧颈总动脉(100%成功率)和右侧ICA(80%成功率)。这些结果表明HM-MARL具有良好的泛化能力和实际可行性。
🎯 应用场景
该研究成果可应用于机械取栓术的自动化导航,有望减少手术时间和医生操作难度,提高手术成功率,并降低患者的医疗成本。未来,该技术还可扩展到其他血管介入手术,例如冠状动脉介入治疗等,具有广阔的应用前景。
📄 摘要(原文)
Mechanical thrombectomy (MT) is typically the optimal treatment for acute ischemic stroke involving large vessel occlusions, but access is limited due to geographic and logistical barriers. Reinforcement learning (RL) shows promise in autonomous endovascular navigation, but generalization across 'long' navigation tasks remains challenging. We propose a Hierarchical Modular Multi-Agent Reinforcement Learning (HM-MARL) framework for autonomous two-device navigation in vitro, enabling efficient and generalizable navigation. HM-MARL was developed to autonomously navigate a guide catheter and guidewire from the femoral artery to the internal carotid artery (ICA). A modular multi-agent approach was used to decompose the complex navigation task into specialized subtasks, each trained using Soft Actor-Critic RL. The framework was validated in both in silico and in vitro testbeds to assess generalization and real-world feasibility. In silico, a single-vasculature model achieved 92-100% success rates on individual anatomies, while a multi-vasculature model achieved 56-80% across multiple patient anatomies. In vitro, both HM-MARL models successfully navigated 100% of trials from the femoral artery to the right common carotid artery and 80% to the right ICA but failed on the left-side vessel superhuman challenge due to the anatomy and catheter type used in navigation. This study presents the first demonstration of in vitro autonomous navigation in MT vasculature. While HM-MARL enables generalization across anatomies, the simulation-to-real transition introduces challenges. Future work will refine RL strategies using world models and validate performance on unseen in vitro data, advancing autonomous MT towards clinical translation.