High-Fidelity Pseudo-label Generation by Large Language Models for Training Robust Radiology Report Classifiers
作者: Brian Wong, Kaito Tanaka
分类: cs.CL
发布日期: 2025-05-03
💡 一句话要点
提出DeBERTa-RAD框架,利用LLM伪标签和知识蒸馏训练鲁棒的放射报告分类器。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 胸部X光报告 自然语言处理 大型语言模型 伪标签 知识蒸馏 DeBERTa 医学文本处理
📋 核心要点
- 胸部X光报告的自动标注面临文本复杂性、否定和不确定性等挑战,传统NLP方法难以有效处理。
- DeBERTa-RAD框架利用LLM生成高质量伪标签,并通过知识蒸馏训练高效的DeBERTa模型。
- 在MIMIC-500基准测试中,DeBERTa-RAD取得了0.9120的Macro F1分数,显著优于现有方法。
📝 摘要(中文)
胸部X光报告的自动标注对于训练基于图像的诊断模型、人口健康研究和临床决策支持等下游任务至关重要。然而,这些自由文本报告的高度可变性、复杂性以及否定和不确定性的普遍存在,对传统的自然语言处理方法提出了重大挑战。大型语言模型(LLM)虽然表现出强大的文本理解能力,但其直接应用于大规模、高效标注受到计算成本和速度的限制。本文介绍了一种新颖的两阶段框架DeBERTa-RAD,它结合了最先进的LLM伪标签的强大功能与基于DeBERTa的高效知识蒸馏,以实现准确快速的胸部X光报告标注。我们利用先进的LLM为大量报告生成高质量的伪标签,包括确定性状态。随后,使用定制的知识蒸馏策略,在这些伪标签数据上训练DeBERTa-Base模型。在专家标注的MIMIC-500基准上评估,DeBERTa-RAD实现了0.9120的最先进的Macro F1分数,显著优于已建立的基于规则的系统、微调的Transformer模型和直接LLM推理,同时保持了适用于高吞吐量应用的实际推理速度。我们的分析表明,该模型在处理不确定性发现方面具有特别的优势。这项工作展示了一条有希望的途径,通过战略性地结合LLM能力和通过蒸馏训练的高效学生模型,来克服数据标注瓶颈并实现高性能的医学文本处理。
🔬 方法详解
问题定义:论文旨在解决胸部X光报告自动标注问题。现有方法,如规则系统和微调的Transformer模型,难以有效处理报告中普遍存在的否定、不确定性以及高度的文本变异性。直接使用大型语言模型进行标注,计算成本过高,速度慢,不适用于大规模应用。
核心思路:论文的核心思路是利用大型语言模型(LLM)生成高质量的伪标签,然后通过知识蒸馏将LLM的知识迁移到更小、更高效的DeBERTa模型中。这样既能利用LLM强大的文本理解能力,又能保证标注的速度和效率。
技术框架:DeBERTa-RAD框架包含两个主要阶段:1) LLM伪标签生成:使用先进的LLM对大量的胸部X光报告进行标注,生成包含确定性状态的高质量伪标签。2) DeBERTa知识蒸馏:使用生成的伪标签数据训练DeBERTa-Base模型,通过定制的知识蒸馏策略,将LLM的知识迁移到DeBERTa模型中。
关键创新:该方法最重要的创新点在于结合了LLM的强大文本理解能力和知识蒸馏的高效性。通过LLM生成高质量的伪标签,克服了传统方法在处理复杂医学文本时的不足。同时,利用知识蒸馏,将LLM的知识迁移到更小的DeBERTa模型中,保证了标注的速度和效率,使其适用于高吞吐量的应用场景。
关键设计:论文中使用了DeBERTa-Base作为学生模型,并设计了定制的知识蒸馏策略。具体的损失函数和网络结构细节未知,但强调了伪标签的质量和确定性状态的重要性。LLM的选择和prompt工程可能是影响伪标签质量的关键因素,但论文中没有详细说明。
📊 实验亮点
DeBERTa-RAD在MIMIC-500基准测试中取得了0.9120的Macro F1分数,达到了最先进水平。该方法显著优于传统的基于规则的系统、微调的Transformer模型和直接LLM推理,同时保持了适用于高吞吐量应用的实际推理速度,尤其在处理不确定性发现方面表现出色。
🎯 应用场景
该研究成果可应用于胸部X光报告的自动标注,从而支持基于图像的诊断模型训练、人口健康研究和临床决策支持。通过降低标注成本和提高标注效率,有助于加速医学影像分析和临床应用的发展,并为医疗机构提供更高效的辅助诊断工具。
📄 摘要(原文)
Automated labeling of chest X-ray reports is essential for enabling downstream tasks such as training image-based diagnostic models, population health studies, and clinical decision support. However, the high variability, complexity, and prevalence of negation and uncertainty in these free-text reports pose significant challenges for traditional Natural Language Processing methods. While large language models (LLMs) demonstrate strong text understanding, their direct application for large-scale, efficient labeling is limited by computational cost and speed. This paper introduces DeBERTa-RAD, a novel two-stage framework that combines the power of state-of-the-art LLM pseudo-labeling with efficient DeBERTa-based knowledge distillation for accurate and fast chest X-ray report labeling. We leverage an advanced LLM to generate high-quality pseudo-labels, including certainty statuses, for a large corpus of reports. Subsequently, a DeBERTa-Base model is trained on this pseudo-labeled data using a tailored knowledge distillation strategy. Evaluated on the expert-annotated MIMIC-500 benchmark, DeBERTa-RAD achieves a state-of-the-art Macro F1 score of 0.9120, significantly outperforming established rule-based systems, fine-tuned transformer models, and direct LLM inference, while maintaining a practical inference speed suitable for high-throughput applications. Our analysis shows particular strength in handling uncertain findings. This work demonstrates a promising path to overcome data annotation bottlenecks and achieve high-performance medical text processing through the strategic combination of LLM capabilities and efficient student models trained via distillation.