MedQ-Engine: A Closed-Loop Data Engine for Evolving MLLMs in Medical Image Quality Assessment

📄 arXiv: 2603.19863v1 📥 PDF

作者: Jiyao Liu, Junzhi Ning, Wanying Qu, Lihao Liu, Chenglong Ma, Junjun He, Ningsheng Xu

分类: cs.CV

发布日期: 2026-03-20


💡 一句话要点

MedQ-Engine:用于医学图像质量评估中演进MLLM的闭环数据引擎

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学图像质量评估 多模态大语言模型 闭环数据引擎 主动学习 失败原型 临床推理 数据驱动

📋 核心要点

  1. 现有的医学图像质量评估方法难以提供具有临床推理的描述性评估,且标注成本高昂,一次性数据收集无法适应模型演进。
  2. MedQ-Engine通过闭环数据引擎,迭代评估模型,发现失败原型,并利用原型检索大规模图像池进行标注和微调,实现自我改进。
  3. 实验结果表明,MedQ-Engine显著提升了模型性能,超越GPT-4o 13%以上,并大幅缩小了与人类专家之间的差距,同时提高了标注效率。

📝 摘要(中文)

医学图像质量评估(Med-IQA)是临床AI部署的先决条件,但多模态大型语言模型(MLLM)在提供超出简单质量分数的描述性评估和临床推理时,仍然远低于人类专家水平。改进MLLM的障碍在于获取描述性标注的高成本,以及一次性数据收集无法适应模型不断演变的弱点。为了解决这些挑战,我们提出了MedQ-Engine,一个闭环数据引擎,它迭代地评估模型,通过数据驱动的聚类发现失败原型,使用这些原型作为检索锚点探索百万级图像池,并通过渐进式的人工标注,以及质量保证的微调进行演进,形成一个自我改进的循环。模型在互补的感知和描述任务上进行评估。一种熵引导的路由机制对标注进行分类,以最大限度地降低标注成本。在五种医学成像模式上的实验表明,MedQ-Engine将一个80亿参数的模型提升到超过GPT-4o 13%以上,并将与人类专家的差距缩小到仅4.34%,仅使用1万个标注,并且比随机抽样具有超过4倍的样本效率。

🔬 方法详解

问题定义:医学图像质量评估(Med-IQA)旨在评估医学图像的质量,这对临床AI的可靠部署至关重要。现有的多模态大型语言模型(MLLM)在Med-IQA任务中,尤其是在需要提供具有临床推理的描述性评估时,性能远低于人类专家。主要痛点在于获取高质量的描述性标注成本高昂,且一次性数据收集难以适应模型不断演变的弱点,导致模型难以持续提升。

核心思路:MedQ-Engine的核心思路是构建一个闭环数据引擎,通过迭代地评估模型,发现模型在哪些类型的图像上表现不佳(即失败原型),然后利用这些失败原型作为检索锚点,从大规模图像池中检索相似的图像,并进行人工标注。标注后的数据用于微调模型,从而提高模型在这些类型图像上的性能。这个过程不断循环,使模型能够不断学习和改进。

技术框架:MedQ-Engine的整体框架包含以下几个主要阶段: 1. 模型评估:使用现有的MLLM对医学图像进行质量评估,并记录模型的预测结果。 2. 失败原型发现:通过数据驱动的聚类方法,分析模型的预测结果,识别出模型容易出错的图像类型,即失败原型。 3. 图像检索与标注:使用失败原型作为检索锚点,从大规模图像池中检索相似的图像,并进行人工标注。采用熵引导的路由机制,优先标注模型不确定的图像,以提高标注效率。 4. 模型微调:使用标注后的数据对MLLM进行微调,提高模型在失败原型上的性能。 5. 循环迭代:重复以上步骤,不断改进模型。

关键创新:MedQ-Engine的关键创新在于其闭环的数据引擎设计,能够根据模型的实际表现,动态地生成训练数据,从而有效地解决了标注成本高昂和数据分布偏移的问题。此外,熵引导的路由机制能够优先标注模型不确定的图像,进一步提高了标注效率。

关键设计:MedQ-Engine的关键设计包括: 1. 失败原型发现:采用聚类算法(具体算法未知)对模型的预测结果进行聚类,以识别失败原型。 2. 图像检索:使用失败原型作为查询,从大规模图像池中检索相似的图像。检索方法未知,可能使用基于嵌入向量的相似度搜索。 3. 熵引导的路由机制:计算模型对每个图像的预测熵,优先标注熵值较高的图像,即模型不确定的图像。 4. 微调策略:使用标注后的数据对MLLM进行微调,微调的具体参数设置和损失函数未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MedQ-Engine在五种医学成像模式上的实验结果表明,该方法能够显著提升MLLM的性能。使用MedQ-Engine训练的80亿参数模型超越了GPT-4o 13%以上,并将与人类专家的差距缩小到仅4.34%。此外,MedQ-Engine仅使用1万个标注,就实现了比随机抽样高4倍以上的样本效率,显著降低了标注成本。

🎯 应用场景

MedQ-Engine可应用于各种医学图像质量评估场景,例如辅助医生进行图像诊断、监控图像采集设备的质量、以及提高医学图像分析算法的鲁棒性。通过持续学习和改进,该引擎能够适应不断变化的临床需求,并为临床AI的可靠部署提供有力支持。未来,该技术有望扩展到其他医疗领域,例如病理图像分析和基因组学数据分析。

📄 摘要(原文)

Medical image quality assessment (Med-IQA) is a prerequisite for clinical AI deployment, yet multimodal large language models (MLLMs) still fall substantially short of human experts, particularly when required to provide descriptive assessments with clinical reasoning beyond simple quality scores. However, improving them is hindered by the high cost of acquiring descriptive annotations and by the inability of one-time data collection to adapt to the model's evolving weaknesses. To address these challenges, we propose MedQ-Engine, a closed-loop data engine that iteratively evaluates the model to discover failure prototypes via data-driven clustering, explores a million-scale image pool using these prototypes as retrieval anchors with progressive human-in-the-loop annotation, and evolves through quality-assured fine-tuning, forming a self-improving cycle. Models are evaluated on complementary perception and description tasks. An entropy-guided routing mechanism triages annotations to minimize labeling cost. Experiments across five medical imaging modalities show that MedQ-Engine elevates an 8B-parameter model to surpass GPT-4o by over 13% and narrow the gap with human experts to only 4.34%, using only 10K annotations with more than 4x sample efficiency over random sampling.