Prototype-Based Knowledge Guidance for Fine-Grained Structured Radiology Reporting

📄 arXiv: 2603.11938v1 📥 PDF

作者: Chantal Pellegrini, Adrian Delchev, Ege Özsoy, Nassir Navab, Matthias Keicher

分类: cs.AI, cs.CV, cs.LG

发布日期: 2026-03-12


💡 一句话要点

ProtoSR:利用原型知识指导细粒度结构化放射报告生成,提升图像理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 结构化报告 放射学 自然语言处理 医学影像 知识库 原型学习 多模态学习

📋 核心要点

  1. 现有结构化放射报告自动化方法难以处理细粒度信息和罕见情况,依赖有限的结构化监督。
  2. ProtoSR通过挖掘大规模自由文本报告,构建多模态知识库,并利用原型指导模型预测。
  3. 实验表明,ProtoSR在细粒度属性问题上显著提升,验证了自由文本知识的有效性。

📝 摘要(中文)

结构化放射报告比自由文本报告更快速、一致,但由于模型必须对罕见发现和属性做出许多细粒度的离散决策,且结构化监督信息有限,因此自动化仍然很困难。相比之下,自由文本报告在日常护理中大规模生成,并通过详细描述隐式地编码了与图像相关的细粒度信息。为了利用这种非结构化知识,我们提出了ProtoSR,一种将自由文本信息注入到结构化报告填充中的方法。首先,我们引入了一个自动提取流程,该流程使用指令调整的LLM来挖掘8万多份MIMIC-CXR研究,并构建一个与结构化报告模板对齐的多模态知识库,用视觉原型表示每个答案选项。利用该知识库,ProtoSR被训练来检索与当前图像-问题对相关的原型,并通过原型条件残差来增强模型预测,从而提供数据驱动的第二意见,选择性地纠正预测。在Rad-ReStruct基准测试中,ProtoSR取得了最先进的结果,在详细属性问题上取得了最大的改进,证明了整合自由文本派生的信号对于细粒度图像理解的价值。

🔬 方法详解

问题定义:结构化放射报告的自动生成面临挑战,尤其是在处理细粒度信息和罕见病例时。现有的方法依赖于有限的结构化标注数据,难以捕捉自由文本报告中蕴含的丰富知识,导致模型在细节属性上的表现不佳。

核心思路:ProtoSR的核心思想是利用大规模自由文本放射报告中蕴含的知识来指导结构化报告的生成。通过将自由文本信息转化为视觉原型,并将其融入到模型预测过程中,从而提升模型对细粒度图像特征的理解能力。

技术框架:ProtoSR主要包含以下几个模块:1) 知识提取模块:使用指令调整的LLM从大规模自由文本报告(MIMIC-CXR)中提取知识,构建多模态知识库。该知识库将每个答案选项与视觉原型相关联。2) 原型检索模块:对于给定的图像-问题对,从知识库中检索相关的视觉原型。3) 预测增强模块:利用检索到的原型,通过原型条件残差来增强模型预测,提供数据驱动的第二意见,选择性地纠正预测。

关键创新:ProtoSR的关键创新在于:1) 知识表示:将自由文本知识表示为视觉原型,使其能够直接与图像特征进行比较和融合。2) 原型条件残差:通过原型条件残差来增强模型预测,允许模型在必要时根据原型进行修正,而不是完全依赖原型。

关键设计:1) LLM选择:使用指令调整的LLM进行知识提取,以提高提取的准确性和效率。2) 原型构建:使用图像特征的平均值作为视觉原型,以代表每个答案选项的典型视觉表现。3) 残差连接:使用残差连接将原型信息融入到模型预测中,以避免过度依赖原型。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

ProtoSR在Rad-ReStruct基准测试中取得了最先进的结果,尤其是在详细属性问题上取得了显著的改进。实验结果表明,ProtoSR能够有效地利用自由文本知识来提升模型对细粒度图像特征的理解能力,从而提高结构化报告的准确性。具体提升幅度未知,原文未提供具体数值。

🎯 应用场景

ProtoSR可应用于辅助放射科医生进行结构化报告的撰写,提高报告的准确性和一致性,减少人为错误。该方法还可用于医学影像教育和研究,帮助医生更好地理解影像特征与诊断结果之间的关系。未来,该技术有望推广到其他医学影像领域,提升诊断效率和质量。

📄 摘要(原文)

Structured radiology reporting promises faster, more consistent communication than free text, but automation remains difficult as models must make many fine-grained, discrete decisions about rare findings and attributes from limited structured supervision. In contrast, free-text reports are produced at scale in routine care and implicitly encode fine-grained, image-linked information through detailed descriptions. To leverage this unstructured knowledge, we propose ProtoSR, an approach for injecting free-text information into structured report population. First, we introduce an automatic extraction pipeline that uses an instruction-tuned LLM to mine 80k+ MIMIC-CXR studies and build a multimodal knowledge base aligned with a structured reporting template, representing each answer option with a visual prototype. Using this knowledge base, ProtoSR is trained to retrieve prototypes relevant for the current image-question pair and augment the model predictions through a prototype-conditioned residual, providing a data-driven second opinion that selectively corrects predictions. On the Rad-ReStruct benchmark, ProtoSR achieves state-of-the-art results, with the largest improvements on detailed attribute questions, demonstrating the value of integrating free-text derived signal for fine-grained image understanding.