VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection -- after competition results

作者: Bo-Cheng Qiu, Fang-Ying Lin, Ming-Han Sun, Yu-Fan Lin, Chia-Ming Lee, Chih-Chung Hsu

分类: cs.CV

发布日期: 2026-05-21

💡 一句话要点

VISTA：融合时空基础模型与解剖学解码，用于罕见病理VCE事件检测

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 胶囊内窥镜 事件检测 时空融合 解剖学解码 多模态学习

📋 核心要点

胶囊内窥镜视频事件检测面临数据稀疏、视觉特征多样等挑战，现有方法难以有效识别罕见病理。
VISTA框架融合时空基础模型，并引入验证引导的融合策略和解剖学信息，提升事件检测精度。
实验结果表明，VISTA在RAREVISION任务中取得了显著提升，赛后评估排名第二，验证了方法的有效性。

📝 摘要（中文）

胶囊内窥镜事件检测极具挑战性，因为临床相关发现稀疏、视觉异构，并且评估是在事件级别而非帧精度级别进行的。我们提出了VISTA，一个度量对齐的多骨干网络框架，用于RAREVISION任务。VISTA结合了用于时间上下文的EndoFM-LV和用于帧级别视觉语义的DINOv3 ViTL/16，然后是多样化头部集成（DHE）、验证引导的加权融合（VGWF）和解剖学感知的时序事件解码（ATED）。最初的官方提交在隐藏测试集上实现了0.3530的temporal mAP@0.5和0.3235的mAP@0.95。竞赛结束后，通过全局粗搜索扩展局部阈值细化，性能提高到0.3726 mAP@0.5和0.3431 mAP@0.95，使ACVLab团队在赛后评估中排名第二。

🔬 方法详解

问题定义：论文旨在解决胶囊内窥镜（VCE）视频中罕见病理事件检测的难题。现有方法在处理VCE视频时，由于临床相关发现的稀疏性和视觉异构性，难以达到理想的检测精度，尤其是在事件级别上的准确性评估面临挑战。传统的帧级别精度评估无法充分反映临床价值，而事件级别的评估更具实际意义。

核心思路：论文的核心思路是融合空间和时间维度的信息，并利用解剖学知识进行辅助解码。通过结合帧级别的视觉语义信息（DINOv3）和时间上下文信息（EndoFM-LV），VISTA能够更全面地理解视频内容。此外，引入验证引导的加权融合（VGWF）和解剖学感知的时序事件解码（ATED），进一步提升了事件检测的准确性和鲁棒性。

技术框架：VISTA框架主要包含以下几个模块：1) EndoFM-LV：用于提取视频的时间上下文信息。2) DINOv3 ViTL/16：用于提取帧级别的视觉语义信息。3) 多样化头部集成（DHE）：用于融合不同模型的预测结果。4) 验证引导的加权融合（VGWF）：根据验证集上的性能，动态调整不同模型的权重。5) 解剖学感知的时序事件解码（ATED）：利用解剖学知识，对事件进行时序解码。整体流程是先分别提取时空特征，然后进行特征融合和事件解码，最终输出检测结果。

关键创新：VISTA的关键创新点在于：1) 时空基础模型的融合：同时利用EndoFM-LV和DINOv3，充分挖掘视频的时空信息。2) 验证引导的加权融合（VGWF）：通过验证集动态调整模型权重，提升泛化能力。3) 解剖学感知的时序事件解码（ATED）：引入解剖学知识，提高事件解码的准确性。与现有方法相比，VISTA更注重时空信息的融合和解剖学知识的利用，从而更好地适应VCE视频的特点。

关键设计：在VGWF中，使用验证集上的mAP作为权重调整的依据，动态调整不同模型的贡献。在ATED中，利用预定义的解剖学区域信息，约束事件的解码过程，例如，出血事件更有可能发生在特定的解剖学区域。此外，论文还采用了局部阈值细化和全局粗搜索相结合的策略，进一步优化了检测结果。

🖼️ 关键图片

📊 实验亮点

VISTA在RAREVISION任务的隐藏测试集上取得了显著的性能提升。最初的官方提交实现了0.3530的temporal mAP@0.5和0.3235的mAP@0.95。经过赛后优化，性能提高到0.3726 mAP@0.5和0.3431 mAP@0.95，在赛后评估中排名第二，证明了VISTA框架的有效性。

🎯 应用场景

VISTA框架可应用于胶囊内窥镜视频的自动分析，辅助医生进行疾病诊断，提高诊断效率和准确性。该研究具有重要的临床应用价值，有助于早期发现和治疗消化道疾病。未来，该技术可扩展到其他医学影像分析领域，例如CT、MRI等。

📄 摘要（原文）

Capsule endoscopy event detection is challenging because clinically relevant findings are sparse, visually heterogeneous, and evaluated at the event level rather than by frame accuracy. We propose VISTA, a metric-aligned multi-backbone framework for the RAREVISION task. VISTA combines EndoFM-LV for temporal context and DINOv3 ViTL/16 for frame-level visual semantics, followed by a Diverse Head Ensemble (DHE), Validation-Guided Weighted Fusion (VGWF), and Anatomy-Aware Temporal Event Decoding (ATED). The original official submission achieved hidden-test temporal mAP@0.5 of 0.3530 and mAP@0.95 of 0.3235. After the competition, extending local threshold refinement with a global coarse search improved performance to 0.3726 mAP@0.5 and 0.3431 mAP@0.95, ranking Team ACVLab second in the post-competition evaluation.

VISTA: Validation-Guided Integration of Spatial and Temporal Foundation Models with Anatomical Decoding for Rare-Pathology VCE Event Detection -- after competition results

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理