Colon-Bench: An Agentic Workflow for Scalable Dense Lesion Annotation in Full-Procedure Colonoscopy Videos

📄 arXiv: 2603.25645v1 📥 PDF

作者: Abdullah Hamdi, Changchun Yang, Xin Gao

分类: eess.IV, cs.CV, cs.HC

发布日期: 2026-03-26

备注: preprint


💡 一句话要点

提出Colon-Bench,用于结肠镜视频中可扩展的密集病灶标注,以促进AI在结肠癌早期筛查的应用。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结肠镜视频 病灶标注 多模态大语言模型 Agentic工作流程 视频目标检测 视频理解 视觉问答 医学图像分析

📋 核心要点

  1. 现有结肠镜AI研究缺乏密集标注、长序列的视频数据集,限制了多模态大语言模型(MLLM)在该领域的应用。
  2. 论文提出一种多阶段Agentic工作流程,集成了时间提议、目标跟踪、AI确认和人工审核,实现了结肠镜视频的可扩展密集标注。
  3. 实验表明,基于Colon-Bench评估的MLLM在病灶定位方面表现出色,并提出了“结肠技能”提示策略,显著提升了MLLM的零样本VQA性能。

📝 摘要(中文)

结肠镜检查是预防结肠癌的关键手段,但缺乏密集标注的长序列视频数据集阻碍了该领域鲁棒AI系统的发展。现有数据集主要集中于单类别息肉检测,缺乏评估现代多模态大语言模型(MLLM)所需的丰富空间、时间及语言标注。为解决这一关键问题,我们引入了Colon-Bench,它通过一种新颖的多阶段Agentic工作流程生成。我们的流程无缝集成了时间提议、边界框跟踪、AI驱动的视觉确认以及人工审核,从而可扩展地标注完整流程视频。由此产生的验证基准在范围上是前所未有的,包含528个视频,14个不同的病灶类别(包括息肉、溃疡和出血),超过300,000个边界框,213,000个分割掩码和133,000个单词的临床描述。我们利用Colon-Bench来严格评估最先进的MLLM在病灶分类、开放词汇视频对象分割(OV-VOS)和视频视觉问答(VQA)方面的性能。MLLM结果表明,与SAM-3相比,其在医学领域具有出人意料的高定位性能。最后,我们分析了MLLM中常见的VQA错误,并引入了一种新颖的“结肠技能”提示策略,在大多数MLLM中将零样本MLLM性能提高了高达9.7%。数据集和代码可在https://abdullahamdi.com/colon-bench 获取。

🔬 方法详解

问题定义:现有结肠镜视频数据集主要集中于息肉检测,缺乏对多种病灶类型(如溃疡、出血等)的密集标注,并且缺少长序列视频的时间信息和临床描述。这限制了多模态大语言模型(MLLM)在结肠镜视频理解和分析方面的应用,阻碍了结肠癌早期筛查AI系统的发展。现有方法难以高效地处理大规模、长序列的结肠镜视频标注任务。

核心思路:论文的核心思路是利用Agentic工作流程,将复杂的标注任务分解为多个可控的阶段,并结合AI和人工的力量,实现可扩展的密集标注。通过时间提议减少人工标注的工作量,利用目标跟踪保证标注的一致性,使用AI进行视觉确认提高标注效率,最后通过人工审核保证标注质量。这种方法旨在克服传统人工标注的低效性和高成本问题。

技术框架:Colon-Bench的标注流程包含以下几个主要阶段:1) 时间提议:自动检测视频中可能包含病灶的时间片段,减少需要人工标注的视频范围。2) 边界框跟踪:利用目标跟踪算法,在时间片段内自动跟踪病灶的位置,生成初始的边界框序列。3) AI视觉确认:使用AI模型对生成的边界框进行视觉确认,过滤掉错误的提议,提高标注的准确性。4) 人工审核:由专业的医生或标注人员对AI确认的结果进行审核和修正,保证标注的最终质量。

关键创新:该方法最大的创新在于其多阶段Agentic工作流程,它将人工标注和AI辅助相结合,实现了结肠镜视频的可扩展密集标注。与传统的纯人工标注方法相比,该方法大大提高了标注效率和降低了标注成本。此外,该方法还引入了“结肠技能”提示策略,通过针对性的提示,提高了MLLM在结肠镜视频VQA任务中的性能。

关键设计:在时间提议阶段,使用了基于深度学习的视频目标检测模型。在边界框跟踪阶段,使用了基于相关滤波器的目标跟踪算法。在AI视觉确认阶段,使用了预训练的图像分类模型。在“结肠技能”提示策略中,设计了一系列针对结肠镜视频特点的提示语,例如“描述病灶的颜色和形状”、“判断病灶是否需要切除”等。这些提示语旨在引导MLLM更好地理解结肠镜视频的内容。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Colon-Bench包含528个结肠镜视频,涵盖14种病灶类别,包含超过30万个边界框、21.3万个分割掩码和13.3万个单词的临床描述,是目前规模最大的结肠镜密集标注数据集。实验结果表明,MLLM在Colon-Bench上表现出良好的病灶定位能力,并且通过“结肠技能”提示策略,零样本VQA性能提升高达9.7%。

🎯 应用场景

Colon-Bench数据集可用于训练和评估各种AI模型,包括目标检测、语义分割、视频理解和多模态学习模型。该数据集可以促进结肠癌早期筛查AI系统的发展,帮助医生更准确、更高效地诊断结肠病变。此外,该数据集还可以用于开发智能结肠镜导航系统,提高结肠镜检查的效率和安全性。

📄 摘要(原文)

Early screening via colonoscopy is critical for colon cancer prevention, yet developing robust AI systems for this domain is hindered by the lack of densely annotated, long-sequence video datasets. Existing datasets predominantly focus on single-class polyp detection and lack the rich spatial, temporal, and linguistic annotations required to evaluate modern Multimodal Large Language Models (MLLMs). To address this critical gap, we introduce Colon-Bench, generated via a novel multi-stage agentic workflow. Our pipeline seamlessly integrates temporal proposals, bounding-box tracking, AI-driven visual confirmation, and human-in-the-loop review to scalably annotate full-procedure videos. The resulting verified benchmark is unprecedented in scope, encompassing 528 videos, 14 distinct lesion categories (including polyps, ulcers, and bleeding), over 300,000 bounding boxes, 213,000 segmentation masks, and 133,000 words of clinical descriptions. We utilize Colon-Bench to rigorously evaluate state-of-the-art MLLMs across lesion classification, Open-Vocabulary Video Object Segmentation (OV-VOS), and video Visual Question Answering (VQA). The MLLM results demonstrate surprisingly high localization performance in medical domains compared to SAM-3. Finally, we analyze common VQA errors from MLLMs to introduce a novel "colon-skill" prompting strategy, improving zero-shot MLLM performance by up to 9.7% across most MLLMs. The dataset and the code are available at https://abdullahamdi.com/colon-bench .