Multimodal Optimal Transport for Unsupervised Temporal Segmentation in Surgical Robotics

📄 arXiv: 2602.24138v1 📥 PDF

作者: Omar Mohamed, Edoardo Fazzari, Ayah Al-Naji, Hamdan Alhadhrami, Khalfan Hableel, Saif Alkindi, Cesare Stefanini

分类: cs.CV, cs.AI

发布日期: 2026-02-27

🔗 代码/项目: GITHUB


💡 一句话要点

提出TASOT,利用多模态最优传输实现手术机器人视频的无监督时序分割

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 手术机器人 时序分割 无监督学习 最优传输 多模态融合 视频理解 动作分割

📋 核心要点

  1. 现有手术视频理解方法依赖大规模预训练,计算和数据成本高昂。
  2. TASOT通过多模态最优传输,结合视觉和文本信息,实现无监督手术阶段分割。
  3. 实验表明,TASOT在多个数据集上显著优于现有零样本方法,无需预训练。

📝 摘要(中文)

本文提出了一种名为Text-Augmented Action Segmentation Optimal Transport (TASOT) 的无监督手术阶段和步骤识别方法。该方法通过结合视频中提取的文本信息,扩展了Action Segmentation Optimal Transport (ASOT)。TASOT将时序动作分割建模为一个多模态最优传输问题,其匹配代价定义为视觉和文本成本的加权组合。视觉项捕捉帧级别的外观相似性,而文本项提供互补的语义线索,并通过时间一致的非平衡Gromov-Wasserstein公式进行联合正则化。这种设计无需手术特定的预训练或外部网络规模的监督,即可实现视频帧和手术动作之间的有效对齐。在多个基准手术数据集上的评估表明,TASOT相对于现有的零样本方法有显著的改进,包括StrasBypass70 (+23.7),BernBypass70 (+4.5),Cholec80 (+16.5)和AutoLaparo (+19.6)。这些结果表明,通过利用标准视觉和文本表示中已有的信息,无需依赖日益复杂的预训练流程,即可实现精细的手术理解。

🔬 方法详解

问题定义:手术机器人视频中的时序动作分割,即识别手术过程中的不同阶段和步骤。现有方法通常依赖于在大量标注数据上进行预训练,然后进行零样本迁移,这带来了巨大的计算成本和数据收集成本。因此,如何在没有大量标注数据和预训练的情况下,实现准确的手术阶段分割是一个关键问题。

核心思路:TASOT的核心思路是将时序动作分割问题建模为一个多模态最优传输问题。通过结合视频的视觉信息和文本信息,利用最优传输理论寻找视频帧和手术动作之间的最佳匹配。这种方法避免了对手术特定数据的预训练,而是利用视频本身包含的信息进行学习。

技术框架:TASOT的整体框架包括以下几个主要模块:1) 视觉特征提取:从视频帧中提取视觉特征,例如使用预训练的卷积神经网络。2) 文本特征生成:从视频中生成文本描述,例如使用语音识别或字幕提取技术。3) 多模态最优传输:将视觉特征和文本特征结合起来,构建一个多模态最优传输问题,其中匹配代价由视觉成本和文本成本组成。4) 时间一致性正则化:使用非平衡Gromov-Wasserstein公式对最优传输问题进行正则化,以保证分割结果的时间一致性。

关键创新:TASOT的关键创新在于将多模态信息(视觉和文本)融入到最优传输框架中,用于无监督的时序动作分割。与传统的基于视觉信息的最优传输方法相比,TASOT能够利用文本信息提供更丰富的语义线索,从而提高分割的准确性。此外,TASOT还采用了时间一致性正则化,进一步提高了分割结果的稳定性。

关键设计:TASOT的关键设计包括:1) 视觉成本和文本成本的加权组合,需要仔细调整权重以平衡两种模态的信息。2) 非平衡Gromov-Wasserstein公式的选择,需要根据具体任务进行调整。3) 视觉特征和文本特征的提取方法,需要选择合适的预训练模型或技术。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

TASOT在多个手术数据集上取得了显著的性能提升。在StrasBypass70数据集上,TASOT的性能提升了23.7%。在BernBypass70数据集上,TASOT的性能提升了4.5%。在Cholec80数据集上,TASOT的性能提升了16.5%。在AutoLaparo数据集上,TASOT的性能提升了19.6%。这些结果表明,TASOT是一种有效的无监督手术阶段分割方法。

🎯 应用场景

TASOT可应用于手术机器人辅助系统,实现手术过程的自动理解和监控。通过准确识别手术阶段,可以为医生提供实时的决策支持,提高手术效率和安全性。此外,该技术还可用于手术视频的自动标注和教学,降低人工标注成本,促进手术知识的传播。

📄 摘要(原文)

Recognizing surgical phases and steps from video is a fundamental problem in computer-assisted interventions. Recent approaches increasingly rely on large-scale pre-training on thousands of labeled surgical videos, followed by zero-shot transfer to specific procedures. While effective, this strategy incurs substantial computational and data collection costs. In this work, we question whether such heavy pre-training is truly necessary. We propose Text-Augmented Action Segmentation Optimal Transport (TASOT), an unsupervised method for surgical phase and step recognition that extends Action Segmentation Optimal Transport (ASOT) by incorporating textual information generated directly from the videos. TASOT formulates temporal action segmentation as a multimodal optimal transport problem, where the matching cost is defined as a weighted combination of visual and text-based costs. The visual term captures frame-level appearance similarity, while the text term provides complementary semantic cues, and both are jointly regularized through a temporally consistent unbalanced Gromov-Wasserstein formulation. This design enables effective alignment between video frames and surgical actions without surgical-specific pretraining or external web-scale supervision. We evaluate TASOT on multiple benchmark surgical datasets and observe consistent and substantial improvements over existing zero-shot methods, including StrasBypass70 (+23.7), BernBypass70 (+4.5), Cholec80 (+16.5), and AutoLaparo (+19.6). These results demonstrate that fine-grained surgical understanding can be achieved by exploiting information already present in standard visual and textual representations, without resorting to increasingly complex pre-training pipelines. The code will be available at https://github.com/omar8ahmed9/TASOT.