MedHorizon: Towards Long-context Medical Video Understanding in the Wild

📄 arXiv: 2605.06537v1 📥 PDF

作者: Bodong Du, Bowen Liu, Yang Yu, Xinpeng Ding, Zhiheng Wu, Shuning Wang, Shuo Nie, Naiming Liu, Qifeng Chen, Yangqiu Song, Xiaomeng Li

分类: cs.CV

发布日期: 2026-05-07


💡 一句话要点

提出MedHorizon基准测试,旨在解决真实临床场景下长视频医疗理解的证据检索与推理难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长视频理解 医疗多模态大模型 临床推理 证据检索 多模态基准测试 时序建模

📋 核心要点

  1. 现有医疗多模态模型多依赖预处理过的短片段,无法应对真实临床中长视频内关键证据稀疏、冗余度高且需跨时空推理的复杂挑战。
  2. 论文构建了MedHorizon基准,通过大规模全流程临床视频与证据导向的多选题,强制模型执行从海量噪声数据中检索关键证据并进行多跳推理的任务。
  3. 实验表明,当前主流模型在长视频理解上表现欠佳,性能未随帧数增加而线性提升,揭示了模型在处理长时序冗余信息时的注意力漂移瓶颈。

📝 摘要(中文)

医疗多模态大语言模型(MLLMs)在图像和短视频分析方面已取得进展,但临床评估通常需要对全流程视频进行理解。与通用长视频不同,医疗程序视频包含高度冗余的解剖视图,而关键证据在时间上极其稀疏、空间上细微且具有上下文依赖性。现有基准测试往往预设证据已通过图像或短视频片段定位,忽略了“先检索后推理”的挑战。为此,我们提出了MedHorizon,这是一个用于长上下文医疗视频理解的真实场景基准。MedHorizon包含759小时的全长临床程序视频,并提供1,253个基于证据的多选题,旨在共同评估稀疏证据理解与多跳临床推理能力。其证据极其稀疏(平均仅占帧数的0.166%),要求模型在噪声流中检索并聚合发现。评估显示,当前最佳模型准确率仅为41.1%,表明现有系统距离鲁棒的全流程理解仍有巨大差距。

🔬 方法详解

问题定义:论文旨在解决医疗长视频理解中的“检索前置推理”难题。现有方法通常假设视频已预先分割或关键帧已定位,但在真实临床中,关键病灶或操作证据仅占视频极小比例,且隐藏在大量冗余的解剖背景中,导致模型难以在长时序中定位并整合证据。

核心思路:通过构建大规模、真实临床环境下的长视频基准,迫使模型在不依赖预先标注的情况下,自主完成从长视频流中识别稀疏证据、理解上下文并进行多跳临床推理的全过程,从而暴露并分析模型在长上下文处理中的局限性。

技术框架:MedHorizon框架包含759小时的全长临床视频库,配套1,253个多选题。模型需处理完整的视频流,通过多模态编码器提取特征,结合长上下文推理机制,在噪声干扰下定位关键帧,并基于这些帧进行临床逻辑判断。

关键创新:首次将医疗视频理解的重心从“短片段分析”转向“全流程长视频检索与推理”。通过引入极低证据密度(0.166%)的测试集,量化评估了模型在处理长时序冗余信息时的注意力漂移现象,并揭示了现有采样策略在全局覆盖与局部细节平衡上的不足。

关键设计:该基准采用多跳临床推理设计,要求模型不仅要定位证据,还需理解手术步骤间的逻辑关联。评估指标涵盖了从证据检索准确率到临床推理正确性的全链路表现,为评估MLLMs在复杂医疗环境下的鲁棒性提供了严苛的测试标准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MedHorizon基准测试揭示了当前MLLMs的显著瓶颈:即使是顶尖模型,在处理长视频时的准确率也仅为41.1%。实验证实,性能并未随输入帧数的增加而可靠提升,且模型在面对冗余信息时普遍存在注意力漂移,证明了现有通用采样方法在处理高密度、高噪声医疗视频时的局限性。

🎯 应用场景

该研究可应用于辅助手术视频分析、临床教学视频自动标注、手术质量评估及远程医疗监控。通过提升模型对长流程视频中关键临床事件的识别与推理能力,有助于医生快速回顾手术过程、辅助术中决策,并推动医疗AI从单帧分析向全流程智能辅助演进。

📄 摘要(原文)

Medical multimodal large language models (MLLMs) have advanced image understanding and short-video analysis, but real clinical review often requires full-procedure video understanding. Unlike general long videos, medical procedures contain highly redundant anatomical views, while decisive evidence is temporally sparse, spatially subtle, and context dependent. Existing benchmarks often assume this evidence has already been localized through images, short clips, or pre-segmented videos, leaving the retrieval-before-reasoning problem under-tested. We introduce MedHorizon, an in-the-wild benchmark for long-context medical video understanding. MedHorizon preserves 759 hours of full-length clinical procedures and provides 1,253 evidence-grounded multiple-choice questionsthat jointly evaluate sparse evidence understanding and multi-hop clinical reasoning. Its evidence is extremely sparse, with only 0.166% evidence frames on average, requiring models to search noisy procedural streams before interpreting and aggregating findings. We evaluate representative general-domain, medical-domain, and long-video MLLMs. The best model reaches only 41.1% accuracy, showing that current systems remain far from robust full-procedure understanding. Further analysis yields four key findings: performance does not scale reliably with more frames, evidence retrieval and clinical interpretation remain primary bottlenecks; these bottlenecks are rooted in weak procedural reasoning and attention drift under redundancy, and generic sampling methods only partially balances local detail with global coverage. MedHorizon provides a rigorous testbed for MLLMs that retrieve sparse evidence and reason over complete clinical workflows.