Look & Mark: Leveraging Radiologist Eye Fixations and Bounding boxes in Multimodal Large Language Models for Chest X-ray Report Generation

📄 arXiv: 2505.22222v1 📥 PDF

作者: Yunsoo Kim, Jinge Wu, Su-Hwan Kim, Pardeep Vasudev, Jiashu Shen, Honghan Wu

分类: cs.CV, cs.CL

发布日期: 2025-05-28


💡 一句话要点

提出Look & Mark策略,利用眼动注视和边界框提升胸部X光报告生成质量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胸部X光报告生成 多模态大语言模型 眼动追踪 边界框标注 上下文学习 AI辅助诊断 放射学

📋 核心要点

  1. 现有胸部X光报告生成模型易产生幻觉和临床错误,限制了其在实际场景中的应用。
  2. Look & Mark策略融合放射科医生眼动注视和边界框信息,通过上下文学习提升报告质量。
  3. 实验表明,L&M显著提升了多个模型的性能,并减少了临床重要错误,提高了报告的准确性。

📝 摘要(中文)

多模态大型语言模型(LLM)在医学图像分析,特别是从胸部X光片(CXR)生成放射学报告方面取得了显著进展。然而,这些模型仍然存在幻觉和临床上重要的错误,限制了它们在实际应用中的可靠性。本研究提出了一种新颖的grounding fixation策略Look & Mark (L&M),它将放射科医生的眼动注视(Look)和边界框注释(Mark)集成到LLM的提示框架中。与传统的微调不同,L&M利用上下文学习来实现显著的性能提升,而无需重新训练。在多个领域特定和通用模型上的评估表明,L&M取得了显著的收益,例如,CXR-LLaVA的总体指标(A.AVG)比基线提示提高了1.2%,LLaVA-Med提高了9.2%。通用模型也受益于L&M与上下文学习的结合,LLaVA-OV实现了87.3%的临床平均性能(C.AVG),甚至超过了那些专门为CXR报告生成而训练的模型。专家评估进一步证实,L&M减少了临床上重要的错误(平均每个报告减少0.43个错误),例如错误预测和遗漏,从而提高了准确性和可靠性。这些发现突出了L&M作为一种可扩展且高效的AI辅助放射学解决方案的潜力,为资源匮乏的临床环境中改进诊断工作流程铺平了道路。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型在胸部X光报告生成任务中存在的幻觉和临床错误问题。现有方法,如直接微调LLM,虽然可以生成报告,但容易产生不准确或遗漏关键信息的错误,影响临床应用。

核心思路:论文的核心思路是利用放射科医生的专业知识,通过眼动追踪和边界框标注,将视觉信息与文本信息更紧密地结合起来。通过将这些信息作为上下文提示输入LLM,引导模型关注图像中的关键区域,从而减少幻觉和错误。

技术框架:L&M框架主要包括以下几个步骤:1) 获取胸部X光图像和对应的放射科医生眼动注视数据以及病灶区域的边界框标注;2) 将眼动注视数据和边界框信息编码成文本提示;3) 将图像和文本提示输入到多模态LLM中,利用上下文学习生成报告。整个过程无需对LLM进行微调。

关键创新:L&M的关键创新在于它利用了放射科医生的先验知识,并将其有效地融入到LLM的提示中。与传统的微调方法相比,L&M无需重新训练模型,具有更高的效率和可扩展性。此外,L&M结合了眼动注视和边界框两种信息,能够更全面地引导模型关注图像中的关键区域。

关键设计:论文的关键设计包括:1) 如何将眼动注视数据和边界框信息编码成文本提示,例如,可以使用自然语言描述注视区域和边界框的位置和大小;2) 如何选择合适的LLM作为基础模型,并设计合适的提示模板;3) 如何评估生成报告的质量,例如,可以使用领域特定的指标和专家评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

L&M策略在CXR-LLaVA模型上实现了1.2%的总体指标提升,在LLaVA-Med模型上实现了9.2%的显著提升。更重要的是,通用模型LLaVA-OV在L&M的加持下,达到了87.3%的临床平均性能,甚至超过了专门为CXR报告生成训练的模型。专家评估表明,L&M平均每个报告减少了0.43个临床重要错误。

🎯 应用场景

该研究成果可应用于AI辅助放射诊断,帮助医生更准确、高效地解读胸部X光片,减少漏诊和误诊。尤其在医疗资源匮乏的地区,该技术可以为医生提供有力的支持,提升诊断水平。未来,该方法有望推广到其他医学影像领域,例如CT、MRI等,实现更广泛的临床应用。

📄 摘要(原文)

Recent advancements in multimodal Large Language Models (LLMs) have significantly enhanced the automation of medical image analysis, particularly in generating radiology reports from chest X-rays (CXR). However, these models still suffer from hallucinations and clinically significant errors, limiting their reliability in real-world applications. In this study, we propose Look & Mark (L&M), a novel grounding fixation strategy that integrates radiologist eye fixations (Look) and bounding box annotations (Mark) into the LLM prompting framework. Unlike conventional fine-tuning, L&M leverages in-context learning to achieve substantial performance gains without retraining. When evaluated across multiple domain-specific and general-purpose models, L&M demonstrates significant gains, including a 1.2% improvement in overall metrics (A.AVG) for CXR-LLaVA compared to baseline prompting and a remarkable 9.2% boost for LLaVA-Med. General-purpose models also benefit from L&M combined with in-context learning, with LLaVA-OV achieving an 87.3% clinical average performance (C.AVG)-the highest among all models, even surpassing those explicitly trained for CXR report generation. Expert evaluations further confirm that L&M reduces clinically significant errors (by 0.43 average errors per report), such as false predictions and omissions, enhancing both accuracy and reliability. These findings highlight L&M's potential as a scalable and efficient solution for AI-assisted radiology, paving the way for improved diagnostic workflows in low-resource clinical settings.