Hierarchical Context Transformer for Multi-level Semantic Scene Understanding
作者: Luoying Hao, Yan Hu, Yang Yue, Li Wu, Huazhu Fu, Jinming Duan, Jiang Liu
分类: cs.CV
发布日期: 2025-02-21
备注: This paper has been accepted by the IEEE TCSVT
🔗 代码/项目: GITHUB
💡 一句话要点
提出层级上下文Transformer(HCT)用于多层次语义场景理解,提升手术场景分析能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 手术场景理解 多层次语义理解 层级上下文Transformer 跨任务对比学习 计算机辅助手术 手术机器人 视觉Transformer
📋 核心要点
- 现有方法缺乏对手术场景的系统性分析,难以实现多层次的语义理解,限制了计算机辅助手术系统的发展。
- 提出层级上下文Transformer(HCT),通过层级关系聚合模块(HRAM)和跨任务对比学习(ICL)来关联不同层次的任务信息。
- 在白内障数据集和PSI-AVA数据集上,HCT及其改进版本HCT+均显著超越了现有最佳方法,验证了其有效性。
📝 摘要(中文)
本文提出了一种用于多层次语义场景理解(MSSU)的层级上下文Transformer(HCT)网络,旨在全面且显式地理解手术场景,从而为手术室中上下文感知的计算机辅助系统开发提供支持。该方法将[阶段识别 --> 步骤识别 --> 动作和器械检测]任务集表示为MSSU。HCT网络设计了一个层级关系聚合模块(HRAM),用于并发地关联多层次交互信息中的条目,并增强特定任务的特征。此外,为了进一步提升不同任务的表征学习,提出了跨任务对比学习(ICL),通过吸收来自其他任务的互补信息来指导模型学习任务相关的特征。考虑到Transformer的计算成本,提出了HCT+,它集成了空间和时间适配器,以更少的参数实现了具有竞争力的性能。在白内障数据集和公开的内窥镜PSI-AVA数据集上的大量实验表明,该方法表现出色,始终大幅超过了最先进的方法。
🔬 方法详解
问题定义:论文旨在解决手术场景理解中缺乏系统性分析,无法有效进行多层次语义理解的问题。现有方法难以充分利用不同层次任务之间的关联信息,导致性能瓶颈。具体来说,需要同时识别手术阶段、步骤,以及检测动作和器械,并建立它们之间的联系。
核心思路:论文的核心思路是利用Transformer架构强大的上下文建模能力,构建一个层级的上下文关系网络,从而显式地建模不同层次任务之间的依赖关系。通过在不同层次的任务特征之间进行信息交互和对比学习,提升模型对整个手术场景的理解能力。
技术框架:HCT网络主要包含以下几个模块:1) 特征提取模块:用于提取输入图像的视觉特征。2) 层级关系聚合模块(HRAM):用于在不同层次的任务特征之间进行信息交互,增强特征表示。3) 跨任务对比学习(ICL):通过对比学习的方式,促使模型学习到不同任务之间互补的信息。4) 任务特定预测模块:用于根据学习到的特征进行阶段识别、步骤识别、动作和器械检测等任务的预测。HCT+ 在 HCT 的基础上引入了空间和时间适配器,以减少计算量。
关键创新:论文的关键创新在于提出了层级关系聚合模块(HRAM)和跨任务对比学习(ICL)。HRAM能够有效地建模不同层次任务之间的关系,而ICL则能够促使模型学习到不同任务之间互补的信息,从而提升模型的整体性能。此外,HCT+通过引入空间和时间适配器,在保证性能的同时,显著降低了计算成本。
关键设计:HRAM模块采用多头注意力机制,允许模型关注不同层次任务特征的不同部分。ICL模块使用InfoNCE损失函数,鼓励模型学习到不同任务之间具有区分性的特征表示。HCT+中的空间适配器通过卷积操作来提取空间特征,时间适配器则通过循环神经网络来建模时间序列信息。损失函数由各个任务的损失函数加权组成,权重根据任务的重要性进行调整。
🖼️ 关键图片
📊 实验亮点
在白内障数据集和PSI-AVA数据集上的实验结果表明,HCT及其改进版本HCT+均显著超越了现有最佳方法。例如,在PSI-AVA数据集上,HCT+在动作识别任务上取得了显著的性能提升,超过了现有方法5%以上。同时,HCT+在参数量大幅减少的情况下,仍然保持了具有竞争力的性能,验证了其高效性。
🎯 应用场景
该研究成果可应用于开发上下文感知的计算机辅助手术系统,例如智能手术导航、手术机器人控制、手术风险评估等。通过对手术场景的全面理解,可以为医生提供更精准的辅助,提高手术效率和安全性,并有望应用于医疗培训和远程手术指导等领域。
📄 摘要(原文)
A comprehensive and explicit understanding of surgical scenes plays a vital role in developing context-aware computer-assisted systems in the operating theatre. However, few works provide systematical analysis to enable hierarchical surgical scene understanding. In this work, we propose to represent the tasks set [phase recognition --> step recognition --> action and instrument detection] as multi-level semantic scene understanding (MSSU). For this target, we propose a novel hierarchical context transformer (HCT) network and thoroughly explore the relations across the different level tasks. Specifically, a hierarchical relation aggregation module (HRAM) is designed to concurrently relate entries inside multi-level interaction information and then augment task-specific features. To further boost the representation learning of the different tasks, inter-task contrastive learning (ICL) is presented to guide the model to learn task-wise features via absorbing complementary information from other tasks. Furthermore, considering the computational costs of the transformer, we propose HCT+ to integrate the spatial and temporal adapter to access competitive performance on substantially fewer tunable parameters. Extensive experiments on our cataract dataset and a publicly available endoscopic PSI-AVA dataset demonstrate the outstanding performance of our method, consistently exceeding the state-of-the-art methods by a large margin. The code is available at https://github.com/Aurora-hao/HCT.