Large Language Models Powered Multiagent Ensemble for Mitigating Hallucination and Efficient Atrial Fibrillation Annotation of ECG Reports

作者: Jingwei Huang, Kuroush Nezafati, Ismael Villanueva-Miranda, Zifan Gu, Yueshuang Xu, Ann Marie Navar, Tingyi Wanyan, Qin Zhou, Bo Yao, Ruichen Rong, Xiaowei Zhan, Guanghua Xiao, Eric D. Peterson, Donghan M. Yang, Wenqi Shi, Yang Xie

分类: cs.AI

发布日期: 2024-10-21 (更新: 2025-07-18)

备注: 36 pages, 12 figures and 1 table

💡 一句话要点

提出基于大语言模型的多智能体集成方法，用于减少幻觉并高效标注心房颤动心电图报告

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多智能体系统 集成学习 电子病历 数据标注 心房颤动 自然语言处理 医疗健康

📋 核心要点

现有电子病历数据标注依赖人工，成本高昂且易出错，限制了数据驱动的医学研究。
论文提出多智能体集成方法，利用多个开源大语言模型进行投票，降低幻觉并提高标注准确率。
实验表明，该方法在心电图标注和健康社会决定因素识别任务中表现出色，超越了单个最佳LLM。

📝 摘要（中文）

本研究提出了一种基于大语言模型（LLMs）的多智能体集成方法，旨在解决幻觉问题和数据标注难题，尤其是在大规模电子健康记录（EHR）数据集中。手动标注此类数据集需要领域专业知识，并且劳动密集、耗时、昂贵且容易出错。为了克服这一瓶颈，我们开发了一种集成LLMs方法，并在两个实际任务中证明了其有效性：（1）标注MIMIC-IV中的大规模未标记心电图数据集；（2）从EHR的临床笔记中识别健康的社会决定因素（SDOH）。在权衡收益和成本后，我们选择了一组性能令人满意的多样化开源LLMs。我们将每个LLM的预测视为一票，并应用具有最小获胜阈值的多数投票机制进行集成。我们实现了一个用于EHR数据标注任务的集成LLMs应用程序。通过使用集成LLMs和自然语言处理，我们标注了包含623,566份心电图报告的MIMIC-IV心电图数据集，估计准确率为98.2%。我们应用集成LLMs方法从1,405份EHR临床笔记的社会史部分识别SDOH，也取得了具有竞争力的性能。实验表明，集成LLMs可以优于单个LLM，甚至是最优秀的商业LLM，并且该方法减少了幻觉错误。研究发现：（1）集成LLMs方法显著减少了标注大规模EHR数据所需的时间和精力，以高精度和高质量自动化了该过程；（2）该方法可以很好地推广到其他文本数据标注任务，如其在SDOH识别中的应用所示；（3）一组多样化的LLMs的集成可以优于或匹配最佳单个LLM的性能；（4）集成方法大大减少了幻觉错误。这种方法为数据标注挑战提供了一种可扩展且高效的解决方案。

🔬 方法详解

问题定义：论文旨在解决大规模电子病历（EHR）数据集中数据标注的难题。传统的手动标注方式耗时、费力、成本高昂，且容易引入人为错误。此外，大语言模型（LLM）在处理此类任务时，容易出现“幻觉”问题，即生成不真实或不准确的信息，影响标注质量。

核心思路：论文的核心思路是利用多个大语言模型（LLM）的集成来提高标注的准确性和鲁棒性，并减少幻觉。通过将每个LLM的预测视为一票，并采用多数投票机制，可以有效地整合不同LLM的优势，降低单个LLM出错的概率。这种集成方法类似于“三个臭皮匠顶个诸葛亮”，旨在利用群体智慧来克服个体LLM的局限性。

技术框架：整体框架包括以下几个主要步骤：1) 选择一组多样化的开源LLM；2) 将待标注的EHR数据输入到每个LLM中，得到各自的预测结果；3) 对每个LLM的预测结果进行投票，采用多数投票机制，并设置最小获胜阈值；4) 将投票结果作为最终的标注结果。该框架的核心在于LLM的选择和投票机制的设计。

关键创新：该方法最重要的技术创新点在于利用多智能体集成来减少LLM的幻觉。与单个LLM相比，集成方法可以有效地降低因单个LLM出错而导致的标注错误。此外，该方法还具有较强的通用性，可以应用于不同的文本数据标注任务。

关键设计：在LLM的选择上，论文强调选择多样化的开源LLM，以保证集成后的模型具有更强的鲁棒性。在投票机制的设计上，论文采用了多数投票机制，并设置了最小获胜阈值，以避免因少数LLM的错误预测而导致标注错误。具体的参数设置和损失函数等技术细节在论文中没有详细描述，属于未知信息。

📊 实验亮点

实验结果表明，该集成LLMs方法在MIMIC-IV心电图数据集上的标注准确率达到98.2%，并且在健康社会决定因素（SDOH）识别任务中也取得了具有竞争力的性能。更重要的是，该方法能够超越单个最佳LLM的性能，并显著减少幻觉错误，证明了其有效性和优越性。

🎯 应用场景

该研究成果可广泛应用于医疗健康领域，例如大规模电子病历数据的自动标注、疾病诊断辅助、药物研发等。通过自动化数据标注过程，可以显著降低成本，提高效率，并为医学研究提供更多高质量的数据。此外，该方法还可以推广到其他领域，例如金融、法律等，用于处理大规模文本数据。

📄 摘要（原文）

This study introduces a LLMs powered multiagent ensemble method to address challenges in hallucination and data labeling, particularly in large-scale EHR datasets. Manual labeling of such datasets requires domain expertise and is labor-intensive, time-consuming, expensive, and error-prone. To overcome this bottleneck, we developed an ensemble LLMs method and demonstrated its effectiveness in two real-world tasks: (1) labeling a large-scale unlabeled ECG dataset in MIMIC-IV; (2) identifying social determinants of health (SDOH) from the clinical notes of EHR. Trading off benefits and cost, we selected a pool of diverse open source LLMs with satisfactory performance. We treat each LLM's prediction as a vote and apply a mechanism of majority voting with minimal winning threshold for ensemble. We implemented an ensemble LLMs application for EHR data labeling tasks. By using the ensemble LLMs and natural language processing, we labeled MIMIC-IV ECG dataset of 623,566 ECG reports with an estimated accuracy of 98.2%. We applied the ensemble LLMs method to identify SDOH from social history sections of 1,405 EHR clinical notes, also achieving competitive performance. Our experiments show that the ensemble LLMs can outperform individual LLM even the best commercial one, and the method reduces hallucination errors. From the research, we found that (1) the ensemble LLMs method significantly reduces the time and effort required for labeling large-scale EHR data, automating the process with high accuracy and quality; (2) the method generalizes well to other text data labeling tasks, as shown by its application to SDOH identification; (3) the ensemble of a group of diverse LLMs can outperform or match the performance of the best individual LLM; and (4) the ensemble method substantially reduces hallucination errors. This approach provides a scalable and efficient solution to data-labeling challenges.

Large Language Models Powered Multiagent Ensemble for Mitigating Hallucination and Efficient Atrial Fibrillation Annotation of ECG Reports

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理