SRT-H: A Hierarchical Framework for Autonomous Surgery via Language Conditioned Imitation Learning

📄 arXiv: 2505.10251v3 📥 PDF

作者: Ji Woong Kim, Juo-Tung Chen, Pascal Hansen, Lucy X. Shi, Antony Goldenberg, Samuel Schmidgall, Paul Maria Scheikl, Anton Deguet, Brandon M. White, De Ru Tsai, Richard Cha, Jeffrey Jopling, Chelsea Finn, Axel Krieger

分类: cs.RO

发布日期: 2025-05-15 (更新: 2025-07-08)


💡 一句话要点

SRT-H:基于语言条件模仿学习的自主手术分层框架,实现复杂手术步骤的自动化。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主手术 分层强化学习 模仿学习 语言条件 机器人手术 胆囊切除术

📋 核心要点

  1. 现有自主手术方法难以应对真实手术中组织变异性和长时间操作的挑战。
  2. 提出一种分层框架,利用高层语言策略进行任务规划,低层策略生成机器人轨迹。
  3. 在离体胆囊切除术实验中,该方法在完全自主的情况下实现了100%的成功率。

📝 摘要(中文)

本研究提出了一种分层框架,用于执行灵巧的、长时程的手术步骤,旨在解决现有方法在真实手术环境中处理复杂操作和组织变异性方面的不足。该框架包含一个高层策略用于任务规划,以及一个低层策略用于生成机器人轨迹。高层规划器在语言空间中进行规划,生成任务级别的指令或纠正性指令,引导机器人完成长时程步骤,并纠正低层策略的误差。通过对胆囊切除术(一种常见的微创手术)的离体实验验证了该框架,并进行了消融研究以评估系统的关键组件。该方法在八个未见过的离体胆囊上实现了100%的成功率,完全自主运行,无需人工干预。这项工作展示了手术步骤级别的自主性,标志着朝着自主手术系统临床部署迈出了一步。

🔬 方法详解

问题定义:现有自主手术方法主要集中在受控环境下的简单任务自动化,难以应对真实手术中组织结构的复杂性和个体差异带来的挑战。传统方法或端到端学习方法难以处理长时间序列操作,并且缺乏足够的泛化能力,容易受到低层策略误差的累积影响。

核心思路:论文的核心思路是采用分层强化学习框架,将复杂的手术任务分解为高层任务规划和低层轨迹生成两个层次。高层策略负责生成任务级别的语言指令,指导低层策略执行具体动作,并通过语言指令进行纠错,从而实现更鲁棒和泛化的自主手术。

技术框架:SRT-H框架包含两个主要模块:高层语言策略和低层运动策略。高层策略接收手术环境的视觉输入,并输出任务级别的语言指令,例如“切开胆囊壁”或“分离胆囊”。低层运动策略接收视觉输入和高层语言指令,生成机器人的运动轨迹,控制手术器械执行具体操作。整个框架通过模仿学习进行训练,利用专家演示数据学习高层和低层策略。

关键创新:该方法最重要的创新点在于引入了语言作为高层策略的输出空间。通过语言指令,高层策略可以更灵活地表达任务目标,并对低层策略的执行进行指导和纠错。这种基于语言的规划方式可以提高系统的可解释性和鲁棒性,使其能够更好地适应手术环境的变化。

关键设计:高层语言策略采用Transformer模型,将视觉输入编码为特征向量,并解码为语言指令。低层运动策略采用神经网络,将视觉输入和语言指令编码为特征向量,并输出机器人的运动轨迹。损失函数包括模仿学习损失和语言一致性损失,用于训练高层和低层策略。具体参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

该方法在离体胆囊切除术实验中取得了显著成果,在八个未见过的离体胆囊上实现了100%的自主手术成功率,无需人工干预。这表明该方法具有很强的泛化能力和鲁棒性,能够有效地处理手术环境中的复杂性和不确定性。消融实验也验证了高层语言策略在提高系统性能方面的重要作用。

🎯 应用场景

该研究成果可应用于开发更智能、更安全的自主手术机器人系统,减轻外科医生的工作负担,提高手术效率和精度。未来,该技术有望推广到其他类型的手术,并应用于远程手术、个性化手术方案设计等领域,从而改善医疗服务质量。

📄 摘要(原文)

Research on autonomous surgery has largely focused on simple task automation in controlled environments. However, real-world surgical applications demand dexterous manipulation over extended durations and generalization to the inherent variability of human tissue. These challenges remain difficult to address using existing logic-based or conventional end-to-end learning approaches. To address this gap, we propose a hierarchical framework for performing dexterous, long-horizon surgical steps. Our approach utilizes a high-level policy for task planning and a low-level policy for generating robot trajectories. The high-level planner plans in language space, generating task-level or corrective instructions that guide the robot through the long-horizon steps and correct for the low-level policy's errors. We validate our framework through ex vivo experiments on cholecystectomy, a commonly-practiced minimally invasive procedure, and conduct ablation studies to evaluate key components of the system. Our method achieves a 100\% success rate across eight unseen ex vivo gallbladders, operating fully autonomously without human intervention. This work demonstrates step-level autonomy in a surgical procedure, marking a milestone toward clinical deployment of autonomous surgical systems.