Automating Adjudication of Cardiovascular Events Using Large Language Models
作者: Sonish Sivarajkumar, Kimia Ameri, Chuqin Li, Yanshan Wang, Min Jiang
分类: cs.CL, cs.AI
发布日期: 2025-03-21 (更新: 2025-06-29)
💡 一句话要点
提出基于大语言模型的框架,自动化心血管事件的临床试验裁决。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 临床试验 心血管事件 自动化裁决 思维树 信息提取 CLEART评分
📋 核心要点
- 临床试验中手动裁决心血管事件耗时费力,且易受主观偏差影响,阻碍试验进展。
- 利用大型语言模型,构建两阶段自动化裁决框架,包括信息提取和基于思维树的裁决。
- 实验结果表明,该框架在事件提取和裁决方面均取得了良好性能,并提出了CLEART评分用于评估AI推理质量。
📝 摘要(中文)
心血管事件(如心脏病和中风)是全球主要的死亡原因,需要在临床试验中进行细致的监测和裁决。传统上,这一过程由临床专家手动执行,耗时、耗资源,且容易出现审查者间的差异,可能引入偏差并阻碍试验进展。本研究提出了一种新颖的框架,利用大型语言模型(LLM)自动化临床试验中对心血管事件的裁决,从而解决这些关键限制。我们开发了一个两阶段方法:首先,采用基于LLM的流程从非结构化临床数据中提取事件信息;其次,使用基于LLM的裁决过程,该过程由思维树方法和临床终点委员会(CEC)指南指导。使用心血管事件特异性临床试验数据,该框架在事件提取方面实现了0.82的F1分数,在裁决方面实现了0.68的准确率。此外,我们引入了CLEART评分,这是一种新颖的自动化指标,专门用于评估AI生成的心血管事件裁决临床推理质量。该方法展示了在保持临床试验高质量、一致性和可审计结果的同时,显著减少裁决时间和成本的巨大潜力。减少的变异性和增强的标准化还有助于更快地识别和减轻与心血管疗法相关的风险。
🔬 方法详解
问题定义:论文旨在解决临床试验中手动裁决心血管事件耗时、成本高昂且易受主观偏差影响的问题。现有方法依赖于临床专家的手动审查,效率低下,且不同专家之间可能存在意见分歧,导致裁决结果不一致。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,自动化心血管事件的裁决过程。通过LLM自动提取事件信息并进行推理判断,从而减少人工干预,提高效率和一致性。这种设计旨在模拟临床专家的决策过程,同时避免主观偏差。
技术框架:该框架包含两个主要阶段:事件信息提取和事件裁决。首先,利用LLM从非结构化临床数据中提取关键事件信息。然后,使用另一个LLM进行事件裁决,该过程受到思维树(Tree of Thoughts)方法和临床终点委员会(CEC)指南的指导。思维树方法允许LLM探索多个推理路径,从而做出更准确的判断。
关键创新:该论文的关键创新在于将大型语言模型应用于心血管事件的自动化裁决,并结合思维树方法来提高裁决的准确性。此外,论文还提出了CLEART评分,一种用于评估AI生成临床推理质量的自动化指标,这为评估和改进AI裁决系统提供了新的工具。
关键设计:在事件提取阶段,使用了针对临床文本优化的LLM模型,并进行了微调以提高提取准确率。在事件裁决阶段,思维树方法通过提示工程实现,允许LLM探索多个可能的推理路径。CLEART评分基于LLM生成的推理过程,评估其完整性、逻辑性和与CEC指南的一致性。具体的参数设置和网络结构细节在论文中可能未详细描述,属于未知信息。
🖼️ 关键图片
📊 实验亮点
该框架在心血管事件提取方面实现了0.82的F1分数,在事件裁决方面实现了0.68的准确率。此外,论文提出的CLEART评分能够有效评估AI生成的临床推理质量,为AI辅助临床决策提供了新的评估指标。这些结果表明,该方法具有显著的实用价值。
🎯 应用场景
该研究成果可应用于加速临床试验进程,降低心血管药物研发成本。通过自动化裁决,可以更快速、更一致地评估药物疗效和安全性,从而加速新药上市。此外,该技术还可用于辅助临床决策,提高诊断准确率,改善患者预后。
📄 摘要(原文)
Cardiovascular events, such as heart attacks and strokes, remain a leading cause of mortality globally, necessitating meticulous monitoring and adjudication in clinical trials. This process, traditionally performed manually by clinical experts, is time-consuming, resource-intensive, and prone to inter-reviewer variability, potentially introducing bias and hindering trial progress. This study addresses these critical limitations by presenting a novel framework for automating the adjudication of cardiovascular events in clinical trials using Large Language Models (LLMs). We developed a two-stage approach: first, employing an LLM-based pipeline for event information extraction from unstructured clinical data and second, using an LLM-based adjudication process guided by a Tree of Thoughts approach and clinical endpoint committee (CEC) guidelines. Using cardiovascular event-specific clinical trial data, the framework achieved an F1-score of 0.82 for event extraction and an accuracy of 0.68 for adjudication. Furthermore, we introduce the CLEART score, a novel, automated metric specifically designed for evaluating the quality of AI-generated clinical reasoning in adjudicating cardiovascular events. This approach demonstrates significant potential for substantially reducing adjudication time and costs while maintaining high-quality, consistent, and auditable outcomes in clinical trials. The reduced variability and enhanced standardization also allow for faster identification and mitigation of risks associated with cardiovascular therapies.