EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery

作者: Guankun Wang, Rui Tang, Mengya Xu, Long Bai, Huxin Gao, Hongliang Ren

分类: cs.CV, cs.AI

发布日期: 2025-06-07

备注: Accepted by Advanced Intelligent Systems

💡 一句话要点

EndoARSS：利用空间感知基础模型高效进行内窥镜手术活动识别与语义分割

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 内窥镜手术 活动识别 语义分割 多任务学习 DINOv2 低秩自适应 空间注意力 医学影像分析

📋 核心要点

现有内窥镜手术活动识别与分割方法难以应对手术场景复杂性，存在跨活动干扰问题，导致性能受限。
EndoARSS框架基于DINOv2，采用低秩自适应微调，并引入任务高效共享适配器和空间感知多尺度注意力。
实验结果表明，EndoARSS在多个内窥镜手术数据集上显著提升了活动识别和语义分割的准确性和鲁棒性。

📝 摘要（中文）

内窥镜手术是机器人辅助微创手术的金标准，在早期疾病检测和精确干预方面具有显著优势。然而，手术场景的复杂性，表现为不同手术活动场景的高度可变性以及目标与背景之间混淆的图像特征，给手术环境理解带来了挑战。传统的深度学习模型通常难以应对跨活动干扰，导致每个下游任务的性能欠佳。为了解决这一局限性，我们探索了多任务学习，它利用任务之间的相关特征来提高整体任务性能。在本文中，我们提出了一种新颖的多任务学习框架EndoARSS，专门为内窥镜手术活动识别和语义分割而设计。我们的方法建立在DINOv2基础模型之上，集成了低秩自适应以促进高效微调，同时结合了任务高效共享低秩适配器以减轻不同任务之间的梯度冲突。此外，我们还引入了空间感知多尺度注意力，通过实现全局信息的跨空间学习来增强特征表示的区分能力。为了评估我们框架的有效性，我们提出了三个新的数据集MTLESD、MTLEndovis和MTLEndovis-Gen，这些数据集专为内窥镜手术场景量身定制，并具有活动识别和语义分割任务的详细注释。大量的实验表明，与现有模型相比，EndoARSS在多个基准测试中取得了显著的性能，显著提高了准确性和鲁棒性。这些结果强调了EndoARSS在推进人工智能驱动的内窥镜手术系统方面的潜力，为提高手术安全性和效率提供了宝贵的见解。

🔬 方法详解

问题定义：内窥镜手术场景理解面临着活动识别和语义分割的挑战。现有方法难以有效区分不同手术活动，且目标与背景的图像特征容易混淆，导致模型在复杂场景下的性能下降。传统的深度学习模型在处理跨活动干扰时表现不佳，限制了手术环境理解的准确性和可靠性。

核心思路：论文的核心思路是利用多任务学习框架，同时进行活动识别和语义分割，从而利用任务之间的相关性来提升整体性能。通过在预训练的DINOv2模型基础上进行微调，并引入任务特定的适配器和空间注意力机制，增强模型对内窥镜手术场景的理解能力。

技术框架：EndoARSS框架主要包含以下几个模块：1) 基于DINOv2的预训练模型作为特征提取器；2) 低秩自适应(LoRA)模块用于高效微调预训练模型；3) 任务高效共享低秩适配器(Task Efficient Shared Low-Rank Adapters)用于缓解多任务学习中的梯度冲突；4) 空间感知多尺度注意力(Spatially-Aware Multi-Scale Attention)模块用于增强特征表示的区分能力。整体流程是首先利用DINOv2提取图像特征，然后通过LoRA进行微调，再利用任务特定的适配器和空间注意力模块进行活动识别和语义分割。

关键创新：论文的关键创新在于以下几点：1) 提出了一种专门为内窥镜手术活动识别和语义分割设计的多任务学习框架EndoARSS；2) 引入了任务高效共享低秩适配器，有效缓解了多任务学习中的梯度冲突；3) 设计了空间感知多尺度注意力模块，增强了特征表示的区分能力。与现有方法相比，EndoARSS能够更好地利用任务之间的相关性，提高模型在复杂手术场景下的性能。

关键设计：在低秩自适应(LoRA)中，选择合适的秩(rank)是关键参数。空间感知多尺度注意力模块的设计考虑了不同尺度的特征信息，并利用跨空间学习来增强全局信息的利用。损失函数方面，可能采用了针对活动识别和语义分割任务的交叉熵损失函数或其变体，并可能引入了正则化项来防止过拟合。

🖼️ 关键图片

📊 实验亮点

EndoARSS在三个新的内窥镜手术数据集MTLESD、MTLEndovis和MTLEndovis-Gen上进行了评估，实验结果表明，与现有模型相比，EndoARSS在活动识别和语义分割任务上均取得了显著的性能提升。具体性能数据未知，但摘要强调了准确性和鲁棒性的显著提高。

🎯 应用场景

EndoARSS框架可应用于机器人辅助内窥镜手术系统，提升手术过程中的环境感知能力，辅助医生进行更精确的操作。该研究有助于提高手术安全性、缩短手术时间，并为术后康复提供更好的保障。未来，该技术有望推广到其他医学影像分析领域，例如病理切片分析、医学影像诊断等。

📄 摘要（原文）

Endoscopic surgery is the gold standard for robotic-assisted minimally invasive surgery, offering significant advantages in early disease detection and precise interventions. However, the complexity of surgical scenes, characterized by high variability in different surgical activity scenarios and confused image features between targets and the background, presents challenges for surgical environment understanding. Traditional deep learning models often struggle with cross-activity interference, leading to suboptimal performance in each downstream task. To address this limitation, we explore multi-task learning, which utilizes the interrelated features between tasks to enhance overall task performance. In this paper, we propose EndoARSS, a novel multi-task learning framework specifically designed for endoscopy surgery activity recognition and semantic segmentation. Built upon the DINOv2 foundation model, our approach integrates Low-Rank Adaptation to facilitate efficient fine-tuning while incorporating Task Efficient Shared Low-Rank Adapters to mitigate gradient conflicts across diverse tasks. Additionally, we introduce the Spatially-Aware Multi-Scale Attention that enhances feature representation discrimination by enabling cross-spatial learning of global information. In order to evaluate the effectiveness of our framework, we present three novel datasets, MTLESD, MTLEndovis and MTLEndovis-Gen, tailored for endoscopic surgery scenarios with detailed annotations for both activity recognition and semantic segmentation tasks. Extensive experiments demonstrate that EndoARSS achieves remarkable performance across multiple benchmarks, significantly improving both accuracy and robustness in comparison to existing models. These results underscore the potential of EndoARSS to advance AI-driven endoscopic surgical systems, offering valuable insights for enhancing surgical safety and efficiency.

EndoARSS: Adapting Spatially-Aware Foundation Model for Efficient Activity Recognition and Semantic Segmentation in Endoscopic Surgery

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理