Unlocking Historical Clinical Trial Data with ALIGN: A Compositional Large Language Model System for Medical Coding
作者: Nabeel Seedat, Caterina Tozzi, Andrea Hita Ardiaca, Mihaela van der Schaar, James Weatherall, Adam Taylor
分类: cs.LG
发布日期: 2024-11-20 (更新: 2025-03-13)
💡 一句话要点
ALIGN:一种用于医学编码的组合式大语言模型系统,解锁历史临床试验数据。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 医学编码 大型语言模型 临床试验数据 零样本学习 数据互操作性
📋 核心要点
- 现有医学编码方法难以处理历史临床试验数据中缺失的医学编码,阻碍了数据集成和再利用。
- ALIGN系统通过组合式LLM,分步骤实现候选代码生成、自我评估和置信度评分,从而实现零样本医学编码。
- 实验表明,ALIGN在MedDRA和ATC编码任务中均优于基线模型,尤其在细粒度编码上提升显著,且成本较低。
📝 摘要(中文)
历史临床试验数据的再利用具有加速医学研究和药物开发的巨大潜力。然而,互操作性挑战,特别是医学编码的缺失,阻碍了跨研究的有效数据集成。大型语言模型(LLM)为无需标注数据的自动编码提供了一个有前景的解决方案,但当前的方法在复杂的编码任务中面临挑战。我们介绍ALIGN,一种新颖的基于组合式LLM的系统,用于自动、零样本医学编码。ALIGN遵循三个步骤:(1)生成多样化的候选代码;(2)代码的自我评估;(3)置信度评分和不确定性估计,从而实现人工干预以确保可靠性。我们评估了ALIGN在将药物术语协调为解剖学治疗化学(ATC)代码,以及将病史术语协调为从22项免疫学试验中提取的医学活动监管词典(MedDRA)代码方面的性能。ALIGN优于LLM基线,同时还提供了可信部署的能力。对于MedDRA编码,ALIGN在所有级别上都实现了高精度,与RAG相匹配,并在最具体的级别(HLGT为87-90%)上表现出色。对于ATC编码,ALIGN表现出卓越的性能,尤其是在较低的层次级别(ATC Level 4),总体准确率为72-73%,常见药物的准确率为86-89%,优于基线7-22%。ALIGN基于不确定性的延迟将准确率提高了17%,达到90%,延迟率为30%,显著提高了不常见药物的性能。ALIGN以每个代码0.0007美元(GPT-4o-mini)和0.02美元(GPT-4o)的成本高效地实现了这一点,降低了临床应用的障碍。ALIGN推进了临床试验数据的自动医学编码,有助于增强数据互操作性和可重用性,使其成为改进临床研究和加速药物开发的有前途的工具。
🔬 方法详解
问题定义:论文旨在解决历史临床试验数据中医学编码缺失的问题,这阻碍了不同研究之间的数据互操作性和再利用。现有方法,特别是基于传统机器学习的方法,需要大量的标注数据进行训练,而大型语言模型虽然具备零样本学习能力,但在复杂编码任务中表现仍有不足。
核心思路:ALIGN的核心思路是利用组合式的大语言模型,通过分解编码任务为多个步骤,提高编码的准确性和可靠性。该方法借鉴了人类专家进行编码的思路,即先生成多个可能的候选代码,然后评估这些代码的合理性,最后选择置信度最高的代码。同时,引入不确定性估计,允许模型在无法确定时选择人工干预,从而保证整体的准确性。
技术框架:ALIGN系统包含三个主要阶段: 1. 候选代码生成:利用LLM生成多样化的候选医学编码。 2. 自我评估:LLM对生成的候选代码进行自我评估,判断其合理性。 3. 置信度评分与不确定性估计:对候选代码进行置信度评分,并估计编码的不确定性。如果模型对编码结果的置信度较低,则选择人工干预。
关键创新:ALIGN的关键创新在于其组合式的LLM架构,以及引入的自我评估和不确定性估计机制。与传统的端到端LLM编码方法相比,ALIGN能够更好地处理复杂的编码任务,并提供可信的编码结果。通过不确定性估计,ALIGN能够识别出自身无法准确编码的样本,从而允许人工干预,进一步提高整体的准确性。
关键设计:ALIGN使用GPT-4o-mini和GPT-4o作为底层LLM。在候选代码生成阶段,使用不同的prompt策略来生成多样化的候选代码。在自我评估阶段,使用LLM判断候选代码与原始文本的匹配程度。在置信度评分阶段,使用LLM对候选代码进行排序,并选择置信度最高的代码。不确定性估计基于LLM的输出概率,当最高概率低于阈值时,选择人工干预。
📊 实验亮点
ALIGN在MedDRA编码任务中,在最具体的HLGT级别上达到了87-90%的准确率,与RAG方法相当。在ATC编码任务中,ALIGN在ATC Level 4级别上达到了72-73%的总体准确率,常见药物的准确率达到了86-89%,优于基线方法7-22%。通过不确定性估计,ALIGN在30%的延迟率下,将准确率提高了17%,达到了90%。
🎯 应用场景
ALIGN系统可应用于多种场景,包括历史临床试验数据的整合、药物警戒、电子病历的标准化等。通过自动化的医学编码,ALIGN能够显著提高数据互操作性和可重用性,加速医学研究和药物开发进程。此外,ALIGN的低成本和高效率使其能够广泛应用于临床实践,降低医疗成本,提高医疗质量。
📄 摘要(原文)
The reuse of historical clinical trial data has significant potential to accelerate medical research and drug development. However, interoperability challenges, particularly with missing medical codes, hinders effective data integration across studies. While Large Language Models (LLMs) offer a promising solution for automated coding without labeled data, current approaches face challenges on complex coding tasks. We introduce ALIGN, a novel compositional LLM-based system for automated, zero-shot medical coding. ALIGN follows a three-step process: (1) diverse candidate code generation; (2) self-evaluation of codes and (3) confidence scoring and uncertainty estimation enabling human deferral to ensure reliability. We evaluate ALIGN on harmonizing medication terms into Anatomical Therapeutic Chemical (ATC) and medical history terms into Medical Dictionary for Regulatory Activities (MedDRA) codes extracted from 22 immunology trials. ALIGN outperformed the LLM baselines, while also providing capabilities for trustworthy deployment. For MedDRA coding, ALIGN achieved high accuracy across all levels, matching RAG and excelling at the most specific levels (87-90% for HLGT). For ATC coding, ALIGN demonstrated superior performance, particularly at lower hierarchy levels (ATC Level 4), with 72-73% overall accuracy and 86-89% accuracy for common medications, outperforming baselines by 7-22%. ALIGN's uncertainty-based deferral improved accuracy by 17% to 90% accuracy with 30% deferral, notably enhancing performance on uncommon medications. ALIGN achieves this cost-efficiently at \$0.0007 and \$0.02 per code for GPT-4o-mini and GPT-4o, reducing barriers to clinical adoption. ALIGN advances automated medical coding for clinical trial data, contributing to enhanced data interoperability and reusability, positioning it as a promising tool to improve clinical research and accelerate drug development.