DIRI: Adversarial Patient Reidentification with Large Language Models for Evaluating Clinical Text Anonymization
作者: John X. Morris, Thomas R. Campion, Sri Laasya Nutheti, Yifan Peng, Akhil Raj, Ramin Zabih, Curtis L. Cole
分类: cs.CL
发布日期: 2024-10-22
💡 一句话要点
提出DIRI方法,利用LLM对抗性评估临床文本匿名化工具的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 临床文本匿名化 患者再识别 大型语言模型 对抗攻击 数据安全
📋 核心要点
- 现有去标识化方法在简单数据集上表现良好,但难以应对真实临床文本的复杂性和多样性,且标注成本高昂。
- 论文提出DIRI方法,利用大型语言模型(LLM)作为对抗攻击者,尝试重新识别匿名化的临床记录。
- 实验表明,即使是最先进的ClinicalBERT模型,仍有9%的记录可被DIRI成功重新识别,揭示了现有方法的不足。
📝 摘要(中文)
共享受保护的健康信息(PHI)对于推进生物医学研究至关重要。在数据分发之前,从业者通常会执行去标识化以删除文本中包含的任何PHI。目前的去标识化方法在高度饱和的数据集上进行评估(工具达到接近完美的准确率),这可能无法反映真实世界临床文本的全部可变性或复杂性,并且注释这些数据集需要大量资源,这成为实际应用的障碍。为了解决这个差距,我们开发了一种对抗性方法,使用大型语言模型(LLM)来重新识别与经过编辑的临床记录相对应的患者,并使用一种新的去标识/再标识(DIRI)方法评估性能。我们的方法使用大型语言模型来重新识别与经过编辑的临床记录相对应的患者。我们使用来自威尔康奈尔医学院的医学数据,这些数据使用三种去标识化工具进行了匿名化:基于规则的Philter和两种基于深度学习的模型,BiLSTM-CRF和ClinicalBERT。尽管ClinicalBERT是最有效的,可以屏蔽所有已识别的PII,但我们的工具仍然重新识别了9%的临床记录。我们的研究突出了当前去标识化技术的重大弱点,同时提供了一种用于迭代开发和改进的工具。
🔬 方法详解
问题定义:论文旨在解决临床文本匿名化工具的安全性评估问题。现有去标识化方法在理想数据集上表现良好,但在真实世界临床文本中,由于其复杂性和多样性,去标识效果会显著下降。此外,构建高质量的、包含各种复杂情况的标注数据集成本高昂,限制了去标识化技术的实际应用和迭代改进。
核心思路:论文的核心思路是采用对抗性方法,将大型语言模型(LLM)视为攻击者,尝试重新识别经过匿名化处理的临床记录。通过评估LLM的再识别能力,可以有效地衡量去标识化工具的安全性,并发现其潜在的弱点。这种方法无需大量人工标注,可以更高效地评估去标识化工具的鲁棒性。
技术框架:DIRI方法包含以下主要步骤:1) 使用现有的去标识化工具对临床文本进行匿名化处理。2) 将匿名化后的文本输入到大型语言模型(LLM)中。3) LLM尝试根据匿名化后的文本,重新识别对应的患者。4) 评估LLM的再识别准确率,以此衡量去标识化工具的安全性。如果LLM能够成功再识别患者,则表明该去标识化工具存在安全漏洞。
关键创新:DIRI方法的关键创新在于利用大型语言模型(LLM)作为对抗攻击者,对临床文本匿名化工具进行安全性评估。与传统的基于规则或统计的方法相比,LLM具有更强的语义理解和推理能力,能够发现更隐蔽的身份信息泄露风险。此外,DIRI方法无需大量人工标注,可以更高效地评估去标识化工具的鲁棒性。
关键设计:论文使用了多种去标识化工具,包括基于规则的Philter和两种基于深度学习的模型BiLSTM-CRF和ClinicalBERT。LLM的具体选择和配置(例如,使用的预训练模型、微调策略等)在论文中可能没有详细说明,属于未知信息。评估指标是LLM的再识别准确率,即LLM成功识别出正确患者的比例。
📊 实验亮点
实验结果表明,即使使用最先进的ClinicalBERT模型进行匿名化处理,DIRI方法仍然能够成功重新识别9%的临床记录。这表明现有去标识化技术存在显著的弱点,需要进一步改进。DIRI方法为评估和改进去标识化工具提供了一种有效的新途径。
🎯 应用场景
该研究成果可应用于医疗数据安全领域,帮助医疗机构和研究人员评估和改进临床文本匿名化工具,从而更安全地共享医疗数据,促进医学研究的进展。该方法还可用于评估其他类型文本数据的匿名化效果,具有广泛的应用前景。
📄 摘要(原文)
Sharing protected health information (PHI) is critical for furthering biomedical research. Before data can be distributed, practitioners often perform deidentification to remove any PHI contained in the text. Contemporary deidentification methods are evaluated on highly saturated datasets (tools achieve near-perfect accuracy) which may not reflect the full variability or complexity of real-world clinical text and annotating them is resource intensive, which is a barrier to real-world applications. To address this gap, we developed an adversarial approach using a large language model (LLM) to re-identify the patient corresponding to a redacted clinical note and evaluated the performance with a novel De-Identification/Re-Identification (DIRI) method. Our method uses a large language model to reidentify the patient corresponding to a redacted clinical note. We demonstrate our method on medical data from Weill Cornell Medicine anonymized with three deidentification tools: rule-based Philter and two deep-learning-based models, BiLSTM-CRF and ClinicalBERT. Although ClinicalBERT was the most effective, masking all identified PII, our tool still reidentified 9% of clinical notes Our study highlights significant weaknesses in current deidentification technologies while providing a tool for iterative development and improvement.