MAIRA-2: Grounded Radiology Report Generation

📄 arXiv: 2406.04449v2 📥 PDF

作者: Shruthi Bannur, Kenza Bouzid, Daniel C. Castro, Anton Schwaighofer, Anja Thieme, Sam Bond-Taylor, Maximilian Ilse, Fernando Pérez-García, Valentina Salvatelli, Harshita Sharma, Felix Meissen, Mercy Ranjit, Shaury Srivastav, Julia Gong, Noel C. F. Codella, Fabian Falck, Ozan Oktay, Matthew P. Lungren, Maria Teodora Wetscherek, Javier Alvarez-Valle, Stephanie L. Hyland

分类: cs.CL, cs.CV

发布日期: 2024-06-06 (更新: 2024-09-20)

备注: 72 pages, 21 figures. v2 updates the model and adds results on the PadChest-GR dataset


💡 一句话要点

MAIRA-2:提出基于定位信息的放射报告生成模型,提升报告质量与可验证性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 放射报告生成 多模态学习 医学影像 病灶定位 大型语言模型

📋 核心要点

  1. 现有放射报告生成模型缺乏对图像中具体病灶位置的感知,限制了报告的实用性和可解释性。
  2. MAIRA-2模型通过整合病灶定位信息,生成带有位置标注的放射报告,提升报告的准确性和临床价值。
  3. 提出的RadFact评估框架,利用LLM评估报告的正确性和完整性,为基于定位的报告生成提供客观评价标准。

📝 摘要(中文)

放射报告是一项复杂的任务,需要对医学图像进行详细理解和精确的语言生成,生成式多模态模型为此提供了一个有前景的解决方案。然而,为了影响临床实践,模型必须在可验证的性能和实用性方面都达到很高的水平。本文通过结合图像上各个发现的定位信息来增强自动报告生成的实用性,这项任务称为“基于定位的报告生成”,并通过结合真实的报告上下文作为输入来提高性能。本文设计了一个新的评估框架(RadFact),利用大型语言模型(LLM)的逻辑推理能力来量化报告的正确性和完整性,并支持新的基于定位的报告任务。本文开发了MAIRA-2,一个大型的放射学专用多模态模型,旨在生成带有和不带有定位信息的胸部X光报告。MAIRA-2在现有的报告生成基准上实现了最先进的水平,并确立了基于定位的报告生成这一新任务。

🔬 方法详解

问题定义:放射报告生成旨在根据医学图像自动生成报告,但现有方法通常忽略了图像中病灶的具体位置信息,导致生成的报告缺乏空间定位能力,难以验证和应用于临床实践。现有方法难以保证报告的正确性和完整性,缺乏有效的评估手段。

核心思路:MAIRA-2的核心思路是将病灶定位信息融入到报告生成过程中,通过多模态融合,使模型能够理解图像中的病灶位置,并在生成的报告中准确描述这些位置。同时,利用大型语言模型的推理能力,设计新的评估框架,提升报告质量和可验证性。

技术框架:MAIRA-2是一个大型放射学专用多模态模型。整体框架包含图像编码器、文本解码器和定位模块。图像编码器负责提取图像特征,文本解码器负责生成报告文本,定位模块负责将报告中的描述与图像中的病灶位置进行关联。模型训练过程中,同时优化报告生成和定位的准确性。

关键创新:该论文的关键创新在于提出了“基于定位的报告生成”这一新任务,并设计了相应的模型和评估框架。与现有方法相比,MAIRA-2能够生成带有位置标注的放射报告,提高了报告的实用性和可解释性。RadFact评估框架利用LLM的推理能力,实现了对报告正确性和完整性的细粒度评估。

关键设计:MAIRA-2采用了Transformer架构,并针对放射图像的特点进行了优化。损失函数包括报告生成损失和定位损失,共同优化模型性能。RadFact评估框架利用LLM对报告中的每个句子进行逻辑推理,判断其是否与图像内容一致,并评估报告的完整性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAIRA-2在现有的报告生成基准上取得了state-of-the-art的性能,证明了其在报告生成方面的优越性。同时,该模型在基于定位的报告生成任务上表现出色,验证了其定位能力的有效性。RadFact评估框架为报告生成模型的评估提供了一种新的思路,能够更全面地评估报告的质量。

🎯 应用场景

该研究成果可应用于临床放射报告的自动生成,辅助医生快速准确地撰写报告,提高诊断效率和准确性。基于定位的报告生成能够提供更详细的病灶信息,有助于医生进行更精准的治疗方案制定。未来,该技术有望推广到其他医学影像领域,例如CT、MRI等。

📄 摘要(原文)

Radiology reporting is a complex task requiring detailed medical image understanding and precise language generation, for which generative multimodal models offer a promising solution. However, to impact clinical practice, models must achieve a high level of both verifiable performance and utility. We augment the utility of automated report generation by incorporating localisation of individual findings on the image - a task we call grounded report generation - and enhance performance by incorporating realistic reporting context as inputs. We design a novel evaluation framework (RadFact) leveraging the logical inference capabilities of large language models (LLMs) to quantify report correctness and completeness at the level of individual sentences, while supporting the new task of grounded reporting. We develop MAIRA-2, a large radiology-specific multimodal model designed to generate chest X-ray reports with and without grounding. MAIRA-2 achieves state of the art on existing report generation benchmarks and establishes the novel task of grounded report generation.