High-Fidelity Pseudo-label Generation by Large Language Models for Training Robust Radiology Report Classifiers

作者: Brian Wong, Kaito Tanaka

分类: cs.CL

发布日期: 2025-05-03

💡 一句话要点

提出DeBERTa-RAD框架，利用LLM伪标签和知识蒸馏训练鲁棒的放射报告分类器。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 胸部X光报告 自然语言处理 大型语言模型 伪标签 知识蒸馏 DeBERTa 医学文本处理

📋 核心要点

胸部X光报告的自动标注面临文本复杂性、否定和不确定性等挑战，传统NLP方法难以有效处理。
DeBERTa-RAD框架利用LLM生成高质量伪标签，并通过知识蒸馏训练高效的DeBERTa模型。
在MIMIC-500基准测试中，DeBERTa-RAD取得了0.9120的Macro F1分数，显著优于现有方法。

📝 摘要（中文）

胸部X光报告的自动标注对于训练基于图像的诊断模型、人口健康研究和临床决策支持等下游任务至关重要。然而，这些自由文本报告的高度可变性、复杂性以及否定和不确定性的普遍存在，对传统的自然语言处理方法提出了重大挑战。大型语言模型（LLM）虽然表现出强大的文本理解能力，但其直接应用于大规模、高效标注受到计算成本和速度的限制。本文介绍了一种新颖的两阶段框架DeBERTa-RAD，它结合了最先进的LLM伪标签的强大功能与基于DeBERTa的高效知识蒸馏，以实现准确快速的胸部X光报告标注。我们利用先进的LLM为大量报告生成高质量的伪标签，包括确定性状态。随后，使用定制的知识蒸馏策略，在这些伪标签数据上训练DeBERTa-Base模型。在专家标注的MIMIC-500基准上评估，DeBERTa-RAD实现了0.9120的最先进的Macro F1分数，显著优于已建立的基于规则的系统、微调的Transformer模型和直接LLM推理，同时保持了适用于高吞吐量应用的实际推理速度。我们的分析表明，该模型在处理不确定性发现方面具有特别的优势。这项工作展示了一条有希望的途径，通过战略性地结合LLM能力和通过蒸馏训练的高效学生模型，来克服数据标注瓶颈并实现高性能的医学文本处理。

🔬 方法详解

问题定义：论文旨在解决胸部X光报告自动标注问题。现有方法，如规则系统和微调的Transformer模型，难以有效处理报告中普遍存在的否定、不确定性以及高度的文本变异性。直接使用大型语言模型进行标注，计算成本过高，速度慢，不适用于大规模应用。

核心思路：论文的核心思路是利用大型语言模型（LLM）生成高质量的伪标签，然后通过知识蒸馏将LLM的知识迁移到更小、更高效的DeBERTa模型中。这样既能利用LLM强大的文本理解能力，又能保证标注的速度和效率。

技术框架：DeBERTa-RAD框架包含两个主要阶段：1) LLM伪标签生成：使用先进的LLM对大量的胸部X光报告进行标注，生成包含确定性状态的高质量伪标签。2) DeBERTa知识蒸馏：使用生成的伪标签数据训练DeBERTa-Base模型，通过定制的知识蒸馏策略，将LLM的知识迁移到DeBERTa模型中。

关键创新：该方法最重要的创新点在于结合了LLM的强大文本理解能力和知识蒸馏的高效性。通过LLM生成高质量的伪标签，克服了传统方法在处理复杂医学文本时的不足。同时，利用知识蒸馏，将LLM的知识迁移到更小的DeBERTa模型中，保证了标注的速度和效率，使其适用于高吞吐量的应用场景。

关键设计：论文中使用了DeBERTa-Base作为学生模型，并设计了定制的知识蒸馏策略。具体的损失函数和网络结构细节未知，但强调了伪标签的质量和确定性状态的重要性。LLM的选择和prompt工程可能是影响伪标签质量的关键因素，但论文中没有详细说明。

📊 实验亮点

DeBERTa-RAD在MIMIC-500基准测试中取得了0.9120的Macro F1分数，达到了最先进水平。该方法显著优于传统的基于规则的系统、微调的Transformer模型和直接LLM推理，同时保持了适用于高吞吐量应用的实际推理速度，尤其在处理不确定性发现方面表现出色。

🎯 应用场景

该研究成果可应用于胸部X光报告的自动标注，从而支持基于图像的诊断模型训练、人口健康研究和临床决策支持。通过降低标注成本和提高标注效率，有助于加速医学影像分析和临床应用的发展，并为医疗机构提供更高效的辅助诊断工具。

📄 摘要（原文）

Automated labeling of chest X-ray reports is essential for enabling downstream tasks such as training image-based diagnostic models, population health studies, and clinical decision support. However, the high variability, complexity, and prevalence of negation and uncertainty in these free-text reports pose significant challenges for traditional Natural Language Processing methods. While large language models (LLMs) demonstrate strong text understanding, their direct application for large-scale, efficient labeling is limited by computational cost and speed. This paper introduces DeBERTa-RAD, a novel two-stage framework that combines the power of state-of-the-art LLM pseudo-labeling with efficient DeBERTa-based knowledge distillation for accurate and fast chest X-ray report labeling. We leverage an advanced LLM to generate high-quality pseudo-labels, including certainty statuses, for a large corpus of reports. Subsequently, a DeBERTa-Base model is trained on this pseudo-labeled data using a tailored knowledge distillation strategy. Evaluated on the expert-annotated MIMIC-500 benchmark, DeBERTa-RAD achieves a state-of-the-art Macro F1 score of 0.9120, significantly outperforming established rule-based systems, fine-tuned transformer models, and direct LLM inference, while maintaining a practical inference speed suitable for high-throughput applications. Our analysis shows particular strength in handling uncertain findings. This work demonstrates a promising path to overcome data annotation bottlenecks and achieve high-performance medical text processing through the strategic combination of LLM capabilities and efficient student models trained via distillation.

High-Fidelity Pseudo-label Generation by Large Language Models for Training Robust Radiology Report Classifiers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理