RSNA Large Language Model Benchmark Dataset for Chest Radiographs of Cardiothoracic Disease: Radiologist Evaluation and Validation Enhanced by AI Labels (REVEAL-CXR)

📄 arXiv: 2601.15129v1 📥 PDF

作者: Yishu Wei, Adam E. Flanders, Errol Colak, John Mongan, Luciano M Prevedello, Po-Hao Chen, Henrique Min Ho Lee, Gilberto Szarf, Hamilton Shoji, Jason Sho, Katherine Andriole, Tessa Cook, Lisa C. Adams, Linda C. Chu, Maggie Chung, Geraldine Brusca-Augello, Djeven P. Deva, Navneet Singh, Felipe Sanchez Tijmes, Jeffrey B. Alpert, Elsie T. Nguyen, Drew A. Torigian, Kate Hanneman, Lauren K Groner, Alexander Phan, Ali Islam, Matias F. Callejas, Gustavo Borges da Silva Teles, Faisal Jamal, Maryam Vazirabad, Ali Tejani, Hari Trivedi, Paulo Kuriki, Rajesh Bhayana, Elana T. Benishay, Yi Lin, Yifan Peng, George Shih

分类: cs.CL

发布日期: 2026-01-21


💡 一句话要点

提出REVEAL-CXR:一个AI辅助的胸部X光片基准数据集,用于评估心胸疾病大语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 胸部X光片 大语言模型 医学影像 人工智能辅助标注 心胸疾病

📋 核心要点

  1. 现有胸部X光片数据集标注成本高昂,专家标注效率低,难以满足大语言模型训练需求。
  2. 提出AI辅助标注流程,利用GPT-4o提取报告信息,Phi-4-Reasoning进行标签映射,加速专家标注。
  3. 构建包含200张X光片的REVEAL-CXR数据集,由三位放射科医生验证,并公开发布用于模型评估。

📝 摘要(中文)

多模态大语言模型在多项选择题形式的放射学委员会考试中表现出与放射科住院医师相当的性能。然而,为了开发临床上有用的多模态LLM工具,领域专家策划的高质量基准至关重要。本研究旨在创建包含100张胸部X光片(分别作为发布数据集和保留数据集)的基准,并提出一种人工智能(AI)辅助的专家标注程序,以提高放射科医生标注研究的效率。使用了来自MIDRC的13735张去标识化的胸部X光片及其相应的报告。GPT-4o从报告中提取异常发现,然后使用本地托管的LLM(Phi-4-Reasoning)将其映射到12个基准标签。从这些研究中,基于AI建议的基准标签抽样了1000个样本进行专家评审;抽样算法确保所选研究具有临床相关性,并涵盖了一系列难度级别。17名胸部放射科医生参与评估,他们标记“完全同意”、“基本同意”或“不同意”以表示他们对LLM建议标签正确性的评估。每张胸部X光片由三位专家评估。其中,至少有两名放射科医生对381张X光片选择了“完全同意”。从该集合中选择了200张,优先考虑那些具有不太常见或多个发现标签的X光片,并将其分为100张发布X光片和100张保留作为保留数据集。保留数据集由RSNA专门用于独立评估不同的模型。创建了一个包含200张胸部X光片和12个基准标签的基准,并在https://imaging.rsna.org上公开发布,每张胸部X光片均由三名放射科医生验证。此外,还开发了一种AI辅助标注程序,以帮助放射科医生大规模标注,最大限度地减少不必要的遗漏,并支持半协作环境。

🔬 方法详解

问题定义:目前,开发临床上实用的大型语言模型(LLM)工具面临的挑战之一是缺乏高质量的、由领域专家策划的基准数据集。现有的胸部X光片数据集往往存在标注不准确、不完整或规模不足的问题,难以有效评估和训练LLM在心胸疾病诊断方面的能力。专家标注耗时耗力,成本高昂,限制了数据集的构建速度和规模。

核心思路:本研究的核心思路是利用人工智能(AI)辅助放射科医生进行胸部X光片标注,从而提高标注效率和准确性。具体而言,利用大型语言模型(LLM)自动提取X光片报告中的关键信息,并将其映射到预定义的基准标签,然后由放射科医生进行验证和修正。这种半自动化的标注流程旨在减轻放射科医生的工作负担,同时确保标注质量。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:从MIDRC收集13735张去标识化的胸部X光片及其对应的报告。2) AI辅助标注:使用GPT-4o从报告中提取异常发现,然后使用本地托管的LLM(Phi-4-Reasoning)将这些发现映射到12个预定义的基准标签。3) 专家评审:由17名胸部放射科医生对AI建议的标签进行评审,标记“完全同意”、“基本同意”或“不同意”。每张X光片由三位专家评估。4) 数据集构建:根据专家评审结果,选择200张X光片构建REVEAL-CXR数据集,其中100张作为发布数据集,100张作为保留数据集。

关键创新:该研究的关键创新在于提出了一种AI辅助的专家标注流程,该流程结合了LLM的自动化能力和放射科医生的专业知识,显著提高了标注效率和质量。此外,REVEAL-CXR数据集的构建过程注重临床相关性和难度多样性,使其成为评估LLM在心胸疾病诊断方面能力的理想基准。

关键设计:在AI辅助标注阶段,使用了GPT-4o进行报告信息提取,并使用Phi-4-Reasoning进行标签映射。抽样算法优先选择具有不太常见或多个发现标签的X光片,以确保数据集的多样性。在专家评审阶段,每张X光片由三位专家评估,以提高标注的可靠性。最终数据集包含12个基准标签,涵盖了常见的心胸疾病。

📊 实验亮点

该研究构建了一个包含200张胸部X光片的REVEAL-CXR数据集,每张X光片均由三位放射科医生验证。该数据集包含12个基准标签,涵盖了常见的心胸疾病。此外,该研究还开发了一种AI辅助标注程序,可以显著提高标注效率和质量。该数据集已公开发布,可供研究人员免费使用。

🎯 应用场景

REVEAL-CXR数据集可用于训练和评估多模态大语言模型在胸部X光片心胸疾病诊断方面的能力。该数据集能够促进AI在医学影像领域的应用,例如辅助诊断、疾病筛查和治疗方案制定。未来,该数据集可以扩展到其他医学影像模态和疾病领域,为构建更智能的医疗AI系统提供支持。

📄 摘要(原文)

Multimodal large language models have demonstrated comparable performance to that of radiology trainees on multiple-choice board-style exams. However, to develop clinically useful multimodal LLM tools, high-quality benchmarks curated by domain experts are essential. To curate released and holdout datasets of 100 chest radiographic studies each and propose an artificial intelligence (AI)-assisted expert labeling procedure to allow radiologists to label studies more efficiently. A total of 13,735 deidentified chest radiographs and their corresponding reports from the MIDRC were used. GPT-4o extracted abnormal findings from the reports, which were then mapped to 12 benchmark labels with a locally hosted LLM (Phi-4-Reasoning). From these studies, 1,000 were sampled on the basis of the AI-suggested benchmark labels for expert review; the sampling algorithm ensured that the selected studies were clinically relevant and captured a range of difficulty levels. Seventeen chest radiologists participated, and they marked "Agree all", "Agree mostly" or "Disagree" to indicate their assessment of the correctness of the LLM suggested labels. Each chest radiograph was evaluated by three experts. Of these, at least two radiologists selected "Agree All" for 381 radiographs. From this set, 200 were selected, prioritizing those with less common or multiple finding labels, and divided into 100 released radiographs and 100 reserved as the holdout dataset. The holdout dataset is used exclusively by RSNA to independently evaluate different models. A benchmark of 200 chest radiographic studies with 12 benchmark labels was created and made publicly available https://imaging.rsna.org, with each chest radiograph verified by three radiologists. In addition, an AI-assisted labeling procedure was developed to help radiologists label at scale, minimize unnecessary omissions, and support a semicollaborative environment.