Cosmos-Surg-dVRK: World Foundation Model-based Automated Online Evaluation of Surgical Robot Policy Learning

📄 arXiv: 2510.16240v2 📥 PDF

作者: Lukas Zbinden, Nigel Nelson, Juo-Tung Chen, Xinhao Chen, Ji Woong Kim, Mahdi Azizian, Axel Krieger, Sean Huver

分类: cs.RO

发布日期: 2025-10-17 (更新: 2025-11-03)

备注: minor metadata and notation fixes; +3 citations


💡 一句话要点

Cosmos-Surg-dVRK:基于世界基础模型的自动化手术机器人策略在线评估

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手术机器人 世界基础模型 策略评估 自动化 在线评估 视频分类 dVRK 模拟

📋 核心要点

  1. 现有手术机器人策略评估方法成本高昂、耗时,且在真实机器人平台上难以保证可重复性,限制了自主手术策略的快速迭代。
  2. Cosmos-Surg-dVRK通过对手术场景进行微调的世界基础模型,结合视频分类器,实现了手术策略的自动化在线评估,降低了评估成本。
  3. 实验表明,Cosmos-Surg-dVRK在缝合垫任务和离体胆囊切除术中,与真实机器人平台和人工评估结果具有良好的一致性。

📝 摘要(中文)

手术机器人和视觉-语言-动作模型的兴起加速了自主手术策略和高效评估策略的发展。然而,直接在物理机器人平台(如达芬奇研究套件dVRK)上评估这些策略仍然受到高成本、耗时、可重复性挑战和执行差异性的阻碍。物理人工智能的世界基础模型(WFM)提供了一种变革性的方法,可以高保真地模拟复杂的真实世界手术任务,如软组织变形。本研究介绍了Cosmos-Surg-dVRK,它是Cosmos WFM的手术微调版本,与训练好的视频分类器一起,实现了手术策略的完全自动化在线评估和基准测试。我们使用两个不同的手术数据集评估了Cosmos-Surg-dVRK。在桌面缝合垫任务中,该自动化流程在Cosmos-Surg-dVRK中的在线rollout与真实dVRK Si平台上的策略结果之间实现了很强的相关性,并且V-JEPA 2导出的视频分类器与人工标注者之间也达成了良好的一致性。此外,Cosmos-Surg-dVRK中离体猪胆囊切除术的初步实验表明与真实世界评估具有良好的对齐性,突出了该平台在更复杂的手术程序中的潜力。

🔬 方法详解

问题定义:论文旨在解决手术机器人策略评估中成本高、耗时且难以保证可重复性的问题。现有方法需要在真实的dVRK机器人平台上进行策略评估,这不仅需要昂贵的设备和专业人员,而且每次评估都需要耗费大量时间。此外,由于真实环境的复杂性和不确定性,评估结果的可重复性难以保证。

核心思路:论文的核心思路是利用世界基础模型(WFM)来模拟真实的手术环境,从而实现手术机器人策略的自动化在线评估。通过在手术数据集上对WFM进行微调,使其能够更准确地模拟手术过程中的软组织变形等复杂现象。然后,利用训练好的视频分类器对模拟的手术过程进行评估,从而避免了在真实机器人平台上进行评估的需要。

技术框架:Cosmos-Surg-dVRK的整体框架包括以下几个主要模块:1) Cosmos WFM:用于模拟真实的手术环境。2) 手术数据集:用于对Cosmos WFM进行微调,使其能够更准确地模拟手术过程。3) 视频分类器:用于对模拟的手术过程进行评估。该视频分类器基于V-JEPA 2模型,能够学习视频中的时空特征,并对策略的优劣进行判断。4) dVRK Si平台:用于验证Cosmos-Surg-dVRK的评估结果。

关键创新:论文的关键创新在于将世界基础模型应用于手术机器人策略评估领域,并提出了Cosmos-Surg-dVRK平台。与现有方法相比,Cosmos-Surg-dVRK能够实现手术策略的自动化在线评估,大大降低了评估成本和时间,并提高了评估结果的可重复性。此外,Cosmos-Surg-dVRK还能够模拟手术过程中的软组织变形等复杂现象,从而更准确地评估手术策略的性能。

关键设计:Cosmos-Surg-dVRK的关键设计包括:1) 使用手术数据集对Cosmos WFM进行微调,使其能够更准确地模拟手术过程。2) 使用V-JEPA 2模型训练视频分类器,使其能够学习视频中的时空特征,并对策略的优劣进行判断。3) 设计了自动化评估流程,能够自动运行手术策略,并对模拟的手术过程进行评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Cosmos-Surg-dVRK在桌面缝合垫任务中,在线rollout与真实dVRK Si平台上的策略结果之间实现了很强的相关性。此外,V-JEPA 2导出的视频分类器与人工标注者之间也达成了良好的一致性。在离体猪胆囊切除术的初步实验中,Cosmos-Surg-dVRK也表现出与真实世界评估良好的对齐性,验证了该平台在复杂手术程序中的潜力。

🎯 应用场景

Cosmos-Surg-dVRK平台可应用于手术机器人策略的快速原型设计、优化和验证。它能够加速自主手术技术的发展,降低研发成本,并提高手术机器人的安全性和有效性。此外,该平台还可用于手术技能培训和评估,为医生提供更高效、更安全的学习环境。未来,该平台有望扩展到更复杂的手术场景,并与其他AI技术相结合,实现更高级的自主手术功能。

📄 摘要(原文)

The rise of surgical robots and vision-language-action models has accelerated the development of autonomous surgical policies and efficient assessment strategies. However, evaluating these policies directly on physical robotic platforms such as the da Vinci Research Kit (dVRK) remains hindered by high costs, time demands, reproducibility challenges, and variability in execution. World foundation models (WFM) for physical AI offer a transformative approach to simulate complex real-world surgical tasks, such as soft tissue deformation, with high fidelity. This work introduces Cosmos-Surg-dVRK, a surgical finetune of the Cosmos WFM, which, together with a trained video classifier, enables fully automated online evaluation and benchmarking of surgical policies. We evaluate Cosmos-Surg-dVRK using two distinct surgical datasets. On tabletop suture pad tasks, the automated pipeline achieves strong correlation between online rollouts in Cosmos-Surg-dVRK and policy outcomes on the real dVRK Si platform, as well as good agreement between human labelers and the V-JEPA 2-derived video classifier. Additionally, preliminary experiments with ex-vivo porcine cholecystectomy tasks in Cosmos-Surg-dVRK demonstrate promising alignment with real-world evaluations, highlighting the platform's potential for more complex surgical procedures.