Expanding Relevance Judgments for Medical Case-based Retrieval Task with Multimodal LLMs
作者: Catarina Pires, Sérgio Nunes, Luís Filipe Teixeira
分类: cs.IR, cs.AI
发布日期: 2025-06-21
备注: To appear at the Third Workshop on Large Language Models for Evaluation in Information Retrieval (LLM4Eval 2025), co-located with SIGIR 2025. 9 pages, 2 figures, 5 tables
💡 一句话要点
利用多模态LLM扩展医学案例检索任务的相关性判断,显著降低标注成本。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大型语言模型 医学信息检索 相关性判断 自动标注 Gemini 1.5 Pro 提示工程
📋 核心要点
- 医学案例检索依赖大量人工标注的相关性判断,成本高昂且数据集稀疏,限制了检索系统评估。
- 利用多模态LLM(Gemini 1.5 Pro)模拟人工评估,通过迭代优化提示策略,自动生成大规模相关性判断。
- 实验表明,MLLM与人工判断具有较高一致性(Cohen's Kappa=0.6),数据集规模扩大37倍,为医学IR评估提供新途径。
📝 摘要(中文)
信息检索(IR)系统的评估依赖于高质量的人工相关性判断(qrels),但获取成本高昂且耗时。虽然池化减少了标注工作量,但导致数据集仅被部分标记。大型语言模型(LLM)为减少对人工判断的依赖提供了一种有前景的替代方案,尤其是在医学案例检索等复杂领域,相关性评估需要分析文本和视觉信息。本文探索使用多模态大型语言模型(MLLM)来扩展相关性判断,创建一个新的自动判断数据集。具体来说,我们在ImageCLEFmed 2013案例检索任务上使用Gemini 1.5 Pro,通过迭代改进的结构化提示策略(整合二元评分、基于指令的评估和少样本学习)来模拟人工评估。我们系统地试验了各种提示配置,以最大限度地提高与人工判断的一致性。为了评估MLLM与人工判断之间的一致性,我们使用Cohen's Kappa,获得了0.6的显著一致性评分,与多模态检索任务中通常观察到的注释者间一致性相当。从最初的35个主题的15,028个手动判断(4.72%相关)开始,我们基于MLLM的方法将数据集扩展了37倍以上,达到558,653个判断,并将相关注释增加到5,950个。平均而言,每个医学案例查询收到了15,398个新注释,其中约99%是不相关的,反映了该领域典型的高度稀疏性。我们的结果表明,MLLM具有扩展相关性判断收集的潜力,为支持医学和多模态IR任务中的检索评估提供了一个有希望的方向。
🔬 方法详解
问题定义:论文旨在解决医学案例检索中相关性判断标注成本高、数据集稀疏的问题。现有方法依赖人工标注,耗时耗力,且难以覆盖所有潜在相关案例。这限制了信息检索系统的有效评估和优化。
核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)模拟人工标注过程,自动生成大规模的相关性判断。通过精心设计的提示策略,引导MLLM分析医学案例的文本和图像信息,判断其与查询的相关性。这种方法旨在降低标注成本,并扩展数据集规模。
技术框架:整体框架包括以下几个主要阶段:1) 数据准备:使用ImageCLEFmed 2013数据集,包含医学案例的文本描述和图像。2) 提示工程:设计迭代优化的提示策略,包括二元评分、基于指令的评估和少样本学习。3) MLLM推理:使用Gemini 1.5 Pro对每个医学案例进行相关性判断。4) 结果评估:使用Cohen's Kappa评估MLLM与人工判断的一致性。
关键创新:最重要的技术创新点在于利用MLLM进行自动相关性判断,并设计了有效的提示策略。与传统的人工标注相比,该方法能够显著降低标注成本,并扩展数据集规模。与简单的LLM应用相比,该方法针对医学案例检索的特点,融合了文本和图像信息,并采用了迭代优化的提示策略,提高了判断的准确性。
关键设计:关键设计包括:1) 提示策略:采用结构化的提示,包括指令、示例和评分标准,引导MLLM进行相关性判断。2) 迭代优化:通过分析MLLM的判断结果,不断调整提示策略,提高与人工判断的一致性。3) 少样本学习:利用少量人工标注的样本,引导MLLM学习相关性判断的模式。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用Gemini 1.5 Pro生成的自动相关性判断与人工判断具有较高的一致性(Cohen's Kappa=0.6),与人工标注者之间的一致性相当。通过该方法,数据集规模扩大了37倍以上,相关注释数量显著增加。这表明MLLM在扩展医学案例检索相关性判断方面具有巨大潜力。
🎯 应用场景
该研究成果可应用于医学信息检索、临床决策支持、医学教育等领域。通过自动生成大规模相关性判断,可以更有效地评估和优化医学检索系统,提高医生获取相关医学知识的效率,辅助临床诊断和治疗决策。未来,该方法可推广到其他多模态信息检索领域,例如法律、专利等。
📄 摘要(原文)
Evaluating Information Retrieval (IR) systems relies on high-quality manual relevance judgments (qrels), which are costly and time-consuming to obtain. While pooling reduces the annotation effort, it results in only partially labeled datasets. Large Language Models (LLMs) offer a promising alternative to reducing reliance on manual judgments, particularly in complex domains like medical case-based retrieval, where relevance assessment requires analyzing both textual and visual information. In this work, we explore using a Multimodal Large Language Model (MLLM) to expand relevance judgments, creating a new dataset of automated judgments. Specifically, we employ Gemini 1.5 Pro on the ImageCLEFmed 2013 case-based retrieval task, simulating human assessment through an iteratively refined, structured prompting strategy that integrates binary scoring, instruction-based evaluation, and few-shot learning. We systematically experimented with various prompt configurations to maximize agreement with human judgments. To evaluate agreement between the MLLM and human judgments, we use Cohen's Kappa, achieving a substantial agreement score of 0.6, comparable to inter-annotator agreement typically observed in multimodal retrieval tasks. Starting from the original 15,028 manual judgments (4.72% relevant) across 35 topics, our MLLM-based approach expanded the dataset by over 37x to 558,653 judgments, increasing relevant annotations to 5,950. On average, each medical case query received 15,398 new annotations, with approximately 99% being non-relevant, reflecting the high sparsity typical in this domain. Our results demonstrate the potential of MLLMs to scale relevance judgment collection, offering a promising direction for supporting retrieval evaluation in medical and multimodal IR tasks.