SAW: Toward a Surgical Action World Model via Controllable and Scalable Video Generation

📄 arXiv: 2603.13024v1 📥 PDF

作者: Sampath Rapuri, Lalithkumar Seenivasan, Dominik Schneider, Roger Soberanis-Mukul, Yufan He, Hao Ding, Jiru Xu, Chenhao Yu, Chenyan Jing, Pengfei Guo, Daguang Xu, Mathias Unberath

分类: cs.CV, cs.AI, cs.LG, eess.IV

发布日期: 2026-03-13

备注: The manuscript is under review


💡 一句话要点

SAW:通过可控且可扩展的视频生成技术构建手术动作世界模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)

关键词: 手术动作世界模型 视频生成 条件扩散模型 腹腔镜手术 手术AI 手术模拟 轨迹条件生成

📋 核心要点

  1. 现有手术视频生成方法依赖昂贵的标注或复杂中间表示,限制了其可扩展性,且在复杂场景中时间一致性不足。
  2. SAW通过语言提示、参考场景、组织可供性掩码和工具轨迹,实现可控且可扩展的手术动作视频生成。
  3. 实验表明,SAW在时间一致性和视觉质量上达到SOTA,并能有效提升手术AI和模拟任务性能。

📝 摘要(中文)

一个能够生成逼真手术动作视频的手术世界模型,并能精确控制工具与组织之间的交互,可以解决手术AI和模拟中的根本挑战,包括数据稀缺、罕见事件合成以及弥合手术自动化的模拟到真实差距。然而,当前视频生成方法作为此类手术世界模型的核心,需要在推理时使用昂贵的标注或复杂的结构化中间表示作为条件信号,限制了其可扩展性。其他方法在复杂的腹腔镜场景中表现出有限的时间一致性,并且缺乏足够的真实感。我们提出了手术动作世界(SAW),通过基于四种轻量级信号(编码工具-动作上下文的语言提示、参考手术场景、组织可供性掩码和2D工具尖端轨迹)调节的视频扩散,朝着手术动作世界建模迈出了一步。我们设计了一种条件视频扩散方法,将视频到视频的扩散重新定义为轨迹条件的手术动作合成。主干扩散模型在一个定制的包含12,044个腹腔镜片段的数据集上进行微调,该数据集具有轻量级的时空条件信号,并利用深度一致性损失来强制执行几何合理性,而无需在推理时使用深度信息。SAW在保留的测试数据上实现了最先进的时间一致性(CD-FVD:199.19 vs. 546.82)和强大的视觉质量。此外,我们证明了其在下游任务中的效用,包括(a)手术AI,其中使用SAW生成的视频增强罕见动作可以提高真实测试数据上的动作识别(剪切F1分数:20.93%提高到43.14%;切割:0.00%提高到8.33%),以及(b)手术模拟,其中从模拟器导出的轨迹点渲染工具-组织交互视频,从而实现视觉上逼真的模拟引擎。

🔬 方法详解

问题定义:论文旨在解决手术AI和模拟中数据稀缺、罕见事件合成以及模拟到真实差距等问题。现有的视频生成方法依赖于昂贵的标注或复杂的结构化中间表示,限制了其可扩展性,并且在复杂腹腔镜场景中时间一致性较差,真实感不足。

核心思路:论文的核心思路是利用条件视频扩散模型,通过轻量级的时空条件信号(语言提示、参考场景、组织可供性掩码和2D工具尖端轨迹)来控制手术动作视频的生成。这种方法旨在降低对复杂标注的依赖,提高生成视频的真实感和时间一致性,从而实现可扩展的手术动作世界模型。

技术框架:SAW的技术框架主要包括以下几个模块:1) 数据集构建:构建包含腹腔镜片段和轻量级时空条件信号的数据集。2) 条件视频扩散模型:设计基于扩散模型的视频生成框架,将视频到视频的扩散过程转化为轨迹条件的手术动作合成。3) 深度一致性损失:引入深度一致性损失,以在没有深度信息的情况下强制执行几何合理性。4) 微调:在构建的数据集上对主干扩散模型进行微调。

关键创新:该论文的关键创新在于:1) 提出了基于轻量级时空条件信号的视频扩散方法,降低了对复杂标注的依赖。2) 设计了深度一致性损失,在没有深度信息的情况下保证了生成视频的几何合理性。3) 将视频到视频的扩散过程重新定义为轨迹条件的手术动作合成,提高了生成视频的可控性。

关键设计:论文的关键设计包括:1) 使用语言提示编码工具-动作上下文。2) 使用组织可供性掩码引导组织形变。3) 使用2D工具尖端轨迹控制工具的运动。4) 设计深度一致性损失,鼓励生成视频的深度信息与参考场景保持一致。5) 使用扩散模型作为主干网络,保证生成视频的质量和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SAW在时间一致性方面取得了显著提升,CD-FVD指标从546.82降低到199.19。在手术AI应用中,通过使用SAW生成的视频增强训练数据,剪切动作的F1分数从20.93%提高到43.14%,切割动作的F1分数从0.00%提高到8.33%,表明SAW能够有效提升罕见动作的识别性能。

🎯 应用场景

该研究成果可应用于手术AI领域,例如通过生成罕见手术动作视频来提升动作识别模型的性能。此外,还可应用于手术模拟领域,通过从模拟器导出的轨迹点渲染逼真的工具-组织交互视频,从而构建视觉上逼真的手术模拟引擎,为医生提供更有效的训练工具。未来,该技术有望推动手术机器人和自动化手术的发展。

📄 摘要(原文)

A surgical world model capable of generating realistic surgical action videos with precise control over tool-tissue interactions can address fundamental challenges in surgical AI and simulation -- from data scarcity and rare event synthesis to bridging the sim-to-real gap for surgical automation. However, current video generation methods, the very core of such surgical world models, require expensive annotations or complex structured intermediates as conditioning signals at inference, limiting their scalability. Other approaches exhibit limited temporal consistency across complex laparoscopic scenes and do not possess sufficient realism. We propose Surgical Action World (SAW) -- a step toward surgical action world modeling through video diffusion conditioned on four lightweight signals: language prompts encoding tool-action context, a reference surgical scene, tissue affordance mask, and 2D tool-tip trajectories. We design a conditional video diffusion approach that reformulates video-to-video diffusion into trajectory-conditioned surgical action synthesis. The backbone diffusion model is fine-tuned on a custom-curated dataset of 12,044 laparoscopic clips with lightweight spatiotemporal conditioning signals, leveraging a depth consistency loss to enforce geometric plausibility without requiring depth at inference. SAW achieves state-of-the-art temporal consistency (CD-FVD: 199.19 vs. 546.82) and strong visual quality on held-out test data. Furthermore, we demonstrate its downstream utility for (a) surgical AI, where augmenting rare actions with SAW-generated videos improves action recognition (clipping F1-score: 20.93% to 43.14%; cutting: 0.00% to 8.33%) on real test data, and (b) surgical simulation, where rendering tool-tissue interaction videos from simulator-derived trajectory points toward a visually faithful simulation engine.