VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection -- after competition results
作者: Bo-Cheng Qiu, Fang-Ying Lin, Ming-Han Sun, Yu-Fan Lin, Chia-Ming Lee, Chih-Chung Hsu
分类: cs.CV
发布日期: 2026-05-21
💡 一句话要点
VISTA:融合时空基础模型与解剖学解码,用于罕见病理VCE事件检测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 胶囊内窥镜 事件检测 时空融合 解剖学解码 多模态学习
📋 核心要点
- 胶囊内窥镜视频事件检测面临数据稀疏、视觉特征多样等挑战,现有方法难以有效识别罕见病理。
- VISTA框架融合时空基础模型,并引入验证引导的融合策略和解剖学信息,提升事件检测精度。
- 实验结果表明,VISTA在RAREVISION任务中取得了显著提升,赛后评估排名第二,验证了方法的有效性。
📝 摘要(中文)
胶囊内窥镜事件检测极具挑战性,因为临床相关发现稀疏、视觉异构,并且评估是在事件级别而非帧精度级别进行的。我们提出了VISTA,一个度量对齐的多骨干网络框架,用于RAREVISION任务。VISTA结合了用于时间上下文的EndoFM-LV和用于帧级别视觉语义的DINOv3 ViTL/16,然后是多样化头部集成(DHE)、验证引导的加权融合(VGWF)和解剖学感知的时序事件解码(ATED)。最初的官方提交在隐藏测试集上实现了0.3530的temporal mAP@0.5和0.3235的mAP@0.95。竞赛结束后,通过全局粗搜索扩展局部阈值细化,性能提高到0.3726 mAP@0.5和0.3431 mAP@0.95,使ACVLab团队在赛后评估中排名第二。
🔬 方法详解
问题定义:论文旨在解决胶囊内窥镜(VCE)视频中罕见病理事件检测的难题。现有方法在处理VCE视频时,由于临床相关发现的稀疏性和视觉异构性,难以达到理想的检测精度,尤其是在事件级别上的准确性评估面临挑战。传统的帧级别精度评估无法充分反映临床价值,而事件级别的评估更具实际意义。
核心思路:论文的核心思路是融合空间和时间维度的信息,并利用解剖学知识进行辅助解码。通过结合帧级别的视觉语义信息(DINOv3)和时间上下文信息(EndoFM-LV),VISTA能够更全面地理解视频内容。此外,引入验证引导的加权融合(VGWF)和解剖学感知的时序事件解码(ATED),进一步提升了事件检测的准确性和鲁棒性。
技术框架:VISTA框架主要包含以下几个模块:1) EndoFM-LV:用于提取视频的时间上下文信息。2) DINOv3 ViTL/16:用于提取帧级别的视觉语义信息。3) 多样化头部集成(DHE):用于融合不同模型的预测结果。4) 验证引导的加权融合(VGWF):根据验证集上的性能,动态调整不同模型的权重。5) 解剖学感知的时序事件解码(ATED):利用解剖学知识,对事件进行时序解码。整体流程是先分别提取时空特征,然后进行特征融合和事件解码,最终输出检测结果。
关键创新:VISTA的关键创新点在于:1) 时空基础模型的融合:同时利用EndoFM-LV和DINOv3,充分挖掘视频的时空信息。2) 验证引导的加权融合(VGWF):通过验证集动态调整模型权重,提升泛化能力。3) 解剖学感知的时序事件解码(ATED):引入解剖学知识,提高事件解码的准确性。与现有方法相比,VISTA更注重时空信息的融合和解剖学知识的利用,从而更好地适应VCE视频的特点。
关键设计:在VGWF中,使用验证集上的mAP作为权重调整的依据,动态调整不同模型的贡献。在ATED中,利用预定义的解剖学区域信息,约束事件的解码过程,例如,出血事件更有可能发生在特定的解剖学区域。此外,论文还采用了局部阈值细化和全局粗搜索相结合的策略,进一步优化了检测结果。
🖼️ 关键图片
📊 实验亮点
VISTA在RAREVISION任务的隐藏测试集上取得了显著的性能提升。最初的官方提交实现了0.3530的temporal mAP@0.5和0.3235的mAP@0.95。经过赛后优化,性能提高到0.3726 mAP@0.5和0.3431 mAP@0.95,在赛后评估中排名第二,证明了VISTA框架的有效性。
🎯 应用场景
VISTA框架可应用于胶囊内窥镜视频的自动分析,辅助医生进行疾病诊断,提高诊断效率和准确性。该研究具有重要的临床应用价值,有助于早期发现和治疗消化道疾病。未来,该技术可扩展到其他医学影像分析领域,例如CT、MRI等。
📄 摘要(原文)
Capsule endoscopy event detection is challenging because clinically relevant findings are sparse, visually heterogeneous, and evaluated at the event level rather than by frame accuracy. We propose VISTA, a metric-aligned multi-backbone framework for the RAREVISION task. VISTA combines EndoFM-LV for temporal context and DINOv3 ViTL/16 for frame-level visual semantics, followed by a Diverse Head Ensemble (DHE), Validation-Guided Weighted Fusion (VGWF), and Anatomy-Aware Temporal Event Decoding (ATED). The original official submission achieved hidden-test temporal mAP@0.5 of 0.3530 and mAP@0.95 of 0.3235. After the competition, extending local threshold refinement with a global coarse search improved performance to 0.3726 mAP@0.5 and 0.3431 mAP@0.95, ranking Team ACVLab second in the post-competition evaluation.