Expanding Relevance Judgments for Medical Case-based Retrieval Task with Multimodal LLMs

作者: Catarina Pires, Sérgio Nunes, Luís Filipe Teixeira

分类: cs.IR, cs.AI

发布日期: 2025-06-21

备注: To appear at the Third Workshop on Large Language Models for Evaluation in Information Retrieval (LLM4Eval 2025), co-located with SIGIR 2025. 9 pages, 2 figures, 5 tables

💡 一句话要点

利用多模态LLM扩展医学案例检索任务的相关性判断，显著降低标注成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 大型语言模型 医学信息检索 相关性判断 自动标注 Gemini 1.5 Pro 提示工程

📋 核心要点

医学案例检索依赖大量人工标注的相关性判断，成本高昂且数据集稀疏，限制了检索系统评估。
利用多模态LLM（Gemini 1.5 Pro）模拟人工评估，通过迭代优化提示策略，自动生成大规模相关性判断。
实验表明，MLLM与人工判断具有较高一致性（Cohen's Kappa=0.6），数据集规模扩大37倍，为医学IR评估提供新途径。

📝 摘要（中文）

信息检索(IR)系统的评估依赖于高质量的人工相关性判断(qrels)，但获取成本高昂且耗时。虽然池化减少了标注工作量，但导致数据集仅被部分标记。大型语言模型(LLM)为减少对人工判断的依赖提供了一种有前景的替代方案，尤其是在医学案例检索等复杂领域，相关性评估需要分析文本和视觉信息。本文探索使用多模态大型语言模型(MLLM)来扩展相关性判断，创建一个新的自动判断数据集。具体来说，我们在ImageCLEFmed 2013案例检索任务上使用Gemini 1.5 Pro，通过迭代改进的结构化提示策略（整合二元评分、基于指令的评估和少样本学习）来模拟人工评估。我们系统地试验了各种提示配置，以最大限度地提高与人工判断的一致性。为了评估MLLM与人工判断之间的一致性，我们使用Cohen's Kappa，获得了0.6的显著一致性评分，与多模态检索任务中通常观察到的注释者间一致性相当。从最初的35个主题的15,028个手动判断（4.72%相关）开始，我们基于MLLM的方法将数据集扩展了37倍以上，达到558,653个判断，并将相关注释增加到5,950个。平均而言，每个医学案例查询收到了15,398个新注释，其中约99%是不相关的，反映了该领域典型的高度稀疏性。我们的结果表明，MLLM具有扩展相关性判断收集的潜力，为支持医学和多模态IR任务中的检索评估提供了一个有希望的方向。

🔬 方法详解

问题定义：论文旨在解决医学案例检索中相关性判断标注成本高、数据集稀疏的问题。现有方法依赖人工标注，耗时耗力，且难以覆盖所有潜在相关案例。这限制了信息检索系统的有效评估和优化。

核心思路：论文的核心思路是利用多模态大型语言模型（MLLM）模拟人工标注过程，自动生成大规模的相关性判断。通过精心设计的提示策略，引导MLLM分析医学案例的文本和图像信息，判断其与查询的相关性。这种方法旨在降低标注成本，并扩展数据集规模。

技术框架：整体框架包括以下几个主要阶段：1) 数据准备：使用ImageCLEFmed 2013数据集，包含医学案例的文本描述和图像。2) 提示工程：设计迭代优化的提示策略，包括二元评分、基于指令的评估和少样本学习。3) MLLM推理：使用Gemini 1.5 Pro对每个医学案例进行相关性判断。4) 结果评估：使用Cohen's Kappa评估MLLM与人工判断的一致性。

关键创新：最重要的技术创新点在于利用MLLM进行自动相关性判断，并设计了有效的提示策略。与传统的人工标注相比，该方法能够显著降低标注成本，并扩展数据集规模。与简单的LLM应用相比，该方法针对医学案例检索的特点，融合了文本和图像信息，并采用了迭代优化的提示策略，提高了判断的准确性。

关键设计：关键设计包括：1) 提示策略：采用结构化的提示，包括指令、示例和评分标准，引导MLLM进行相关性判断。2) 迭代优化：通过分析MLLM的判断结果，不断调整提示策略，提高与人工判断的一致性。3) 少样本学习：利用少量人工标注的样本，引导MLLM学习相关性判断的模式。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用Gemini 1.5 Pro生成的自动相关性判断与人工判断具有较高的一致性（Cohen's Kappa=0.6），与人工标注者之间的一致性相当。通过该方法，数据集规模扩大了37倍以上，相关注释数量显著增加。这表明MLLM在扩展医学案例检索相关性判断方面具有巨大潜力。

🎯 应用场景

该研究成果可应用于医学信息检索、临床决策支持、医学教育等领域。通过自动生成大规模相关性判断，可以更有效地评估和优化医学检索系统，提高医生获取相关医学知识的效率，辅助临床诊断和治疗决策。未来，该方法可推广到其他多模态信息检索领域，例如法律、专利等。

📄 摘要（原文）

Evaluating Information Retrieval (IR) systems relies on high-quality manual relevance judgments (qrels), which are costly and time-consuming to obtain. While pooling reduces the annotation effort, it results in only partially labeled datasets. Large Language Models (LLMs) offer a promising alternative to reducing reliance on manual judgments, particularly in complex domains like medical case-based retrieval, where relevance assessment requires analyzing both textual and visual information. In this work, we explore using a Multimodal Large Language Model (MLLM) to expand relevance judgments, creating a new dataset of automated judgments. Specifically, we employ Gemini 1.5 Pro on the ImageCLEFmed 2013 case-based retrieval task, simulating human assessment through an iteratively refined, structured prompting strategy that integrates binary scoring, instruction-based evaluation, and few-shot learning. We systematically experimented with various prompt configurations to maximize agreement with human judgments. To evaluate agreement between the MLLM and human judgments, we use Cohen's Kappa, achieving a substantial agreement score of 0.6, comparable to inter-annotator agreement typically observed in multimodal retrieval tasks. Starting from the original 15,028 manual judgments (4.72% relevant) across 35 topics, our MLLM-based approach expanded the dataset by over 37x to 558,653 judgments, increasing relevant annotations to 5,950. On average, each medical case query received 15,398 new annotations, with approximately 99% being non-relevant, reflecting the high sparsity typical in this domain. Our results demonstrate the potential of MLLMs to scale relevance judgment collection, offering a promising direction for supporting retrieval evaluation in medical and multimodal IR tasks.

Expanding Relevance Judgments for Medical Case-based Retrieval Task with Multimodal LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理