Truthful Text Sanitization Guided by Inference Attacks

作者: Ildikó Pilán, Benet Manzanares-Salor, David Sánchez, Pierre Lison

分类: cs.CL

发布日期: 2024-12-17 (更新: 2025-08-31)

💡 一句话要点

提出基于推理攻击指导的文本泛化脱敏方法，平衡隐私保护与效用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本脱敏 隐私保护 大型语言模型 推理攻击 数据匿名化

📋 核心要点

现有文本脱敏方法难以在隐私保护和效用保持之间取得平衡，容易造成信息丢失或隐私泄露。
论文提出一种基于泛化的文本脱敏方法，利用LLM生成并评估替换候选，选择既能保护隐私又能保留信息的最佳方案。
实验结果表明，该方法在保持文本效用的同时，能够有效降低重新识别风险，优于现有方法。

📝 摘要（中文）

本文提出了一种新颖的文本脱敏方法，该方法基于泛化，即用更宽泛但仍具有信息量的术语来替代原始文本片段的语义内容，以防止个人信息的泄露。该方法的核心挑战在于平衡隐私保护（避免泄露个人信息）和效用保持（尽可能保留文档的原始内容）。该方法依赖于指令调优的大型语言模型（LLM），并分为两个阶段。首先，LLM用于获取每个包含个人身份信息（PII）的文本片段的真值保持替换候选，并根据其抽象级别对这些候选进行排序。然后，通过使用LLM进行推理攻击来评估这些候选保护隐私的能力。最后，系统选择被证明能够抵抗这些攻击的最具信息量的替换候选。该过程有效地平衡了隐私和效用。在文本匿名化基准上的结果表明，使用Mistral 7B Instruct实现的该方法提高了效用，与完全抑制原始跨度相比，重新识别风险仅略有增加（<1个百分点）。此外，该方法被证明比现有方法（如Microsoft Presidio的合成替换）更具真值保持性。

🔬 方法详解

问题定义：文本脱敏旨在防止文档中个人身份信息（PII）的泄露，核心挑战在于如何在移除或修改敏感信息的同时，最大程度地保留文档的原始语义和实用价值。现有方法，例如直接删除或使用合成数据替换，往往会导致信息丢失或引入不准确的信息，影响文档的可用性。此外，简单地替换可能无法有效防御推理攻击，攻击者可能通过上下文信息推断出原始的敏感信息。

核心思路：论文的核心思路是利用大型语言模型（LLM）生成一系列真值保持的替换候选，并根据其抽象程度进行排序。然后，通过模拟推理攻击来评估每个候选的隐私保护能力，选择既能有效防御攻击又能最大程度保留信息量的替换方案。这种方法旨在通过泛化而非直接删除或替换，在隐私保护和效用保持之间找到最佳平衡点。

技术框架：该方法包含两个主要阶段：候选生成与排序阶段和隐私评估与选择阶段。在候选生成与排序阶段，首先利用LLM对包含PII的文本片段生成多个替换候选，这些候选在语义上与原始文本片段相关，但更加宽泛和抽象。然后，根据候选的抽象程度进行排序，抽象程度越高，隐私保护能力越强。在隐私评估与选择阶段，利用LLM模拟推理攻击，评估每个候选被攻击者推断出原始PII的风险。最后，选择在满足隐私保护要求的前提下，信息量最大的替换候选。

关键创新：该方法的关键创新在于将推理攻击纳入文本脱敏的评估流程中。通过模拟攻击者的行为，可以更准确地评估替换候选的隐私保护能力，从而选择更安全有效的脱敏方案。此外，利用LLM生成真值保持的替换候选，可以有效提高脱敏后文档的可用性。

关键设计：该方法使用指令调优的LLM（如Mistral 7B Instruct）作为核心组件。在候选生成阶段，通过特定的prompt指令引导LLM生成符合要求的替换候选。在隐私评估阶段，设计了基于LLM的推理攻击模型，通过分析上下文信息来推断原始PII。此外，还设计了新的评估指标，用于在不需要手动标注的情况下，评估脱敏后文档的隐私保护能力和效用。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法使用Mistral 7B Instruct实现后，在文本匿名化基准测试中，与完全抑制原始文本相比，效用得到了显著提升，而重新识别风险仅增加了不到1个百分点。此外，该方法在真值保持方面优于Microsoft Presidio等现有方法，表明其在平衡隐私保护和效用保持方面具有显著优势。

🎯 应用场景

该研究成果可应用于多种需要保护个人隐私的场景，例如医疗记录脱敏、金融交易数据匿名化、社交媒体内容审查等。通过该方法，可以在保护用户隐私的同时，最大程度地保留数据的可用性，从而促进数据共享和分析，为科学研究、商业决策和社会治理提供支持。未来，该方法可以进一步扩展到处理更复杂的文本数据，并与其他隐私保护技术相结合，构建更完善的隐私保护体系。

📄 摘要（原文）

Text sanitization aims to rewrite parts of a document to prevent disclosure of personal information. The central challenge of text sanitization is to strike a balance between privacy protection (avoiding the leakage of personal information) and utility preservation (retaining as much as possible of the document's original content). To this end, we introduce a novel text sanitization method based on generalizations, that is, broader but still informative terms that subsume the semantic content of the original text spans. The approach relies on the use of instruction-tuned large language models (LLMs) and is divided into two stages. Given a document including text spans expressing personally identifiable information (PII), the LLM is first applied to obtain truth-preserving replacement candidates for each text span and rank those according to their abstraction level. Those candidates are then evaluated for their ability to protect privacy by conducting inference attacks with the LLM. Finally, the system selects the most informative replacement candidate shown to be resistant to those attacks. This two-stage process produces replacements that effectively balance privacy and utility. We also present novel metrics to evaluate these two aspects without needing to manually annotate documents. Results on the Text Anonymization Benchmark show that the proposed approach, implemented with Mistral 7B Instruct, leads to enhanced utility, with only a marginal (< 1 p.p.) increase in re-identification risk compared to fully suppressing the original spans. Furthermore, our approach is shown to be more truth-preserving than existing methods such as Microsoft Presidio's synthetic replacements.

Truthful Text Sanitization Guided by Inference Attacks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理