Can Large Language Models Really Recognize Your Name?

📄 arXiv: 2505.14549v1 📥 PDF

作者: Dzung Pham, Peter Kairouz, Niloofar Mireshghallah, Eugene Bagdasarian, Chau Minh Pham, Amir Houmansadr

分类: cs.CR, cs.AI

发布日期: 2025-05-20


💡 一句话要点

揭示大语言模型在识别个人姓名方面存在的系统性缺陷,并提出评估基准AMBENCH。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 隐私保护 个人身份信息 命名实体识别 模糊人名 基准数据集 AMBENCH

📋 核心要点

  1. 现有基于LLM的隐私保护方案假设模型能可靠检测个人身份信息,但实际效果有待考量。
  2. 论文提出AMBENCH基准数据集,包含易被误解的人名和良性提示注入,用于评估LLM的隐私保护能力。
  3. 实验表明,LLM对模糊人名的识别召回率显著下降,隐私保护摘要中忽略模糊人名的概率更高。

📝 摘要(中文)

大型语言模型(LLM)越来越多地被用于保护敏感的用户数据。然而,目前基于LLM的隐私解决方案假设这些模型能够可靠地检测个人身份信息(PII),特别是命名实体。本文挑战了这一假设,揭示了基于LLM的隐私任务中存在的系统性失败。具体来说,我们表明,由于模糊的上下文导致名称被误解或处理不当,现代LLM经常忽略即使在简短文本片段中的人名。我们提出了AMBENCH,这是一个看似模棱两可的人名基准数据集,利用了名称规则性偏差现象,嵌入在简洁的文本片段中,并结合良性提示注入。我们对现代LLM(任务是检测PII)以及专用工具进行的实验表明,与更容易识别的名称相比,模糊名称的召回率下降了20-40%。此外,在存在良性提示注入的情况下,在据称具有隐私保护功能的LLM生成的摘要中,模糊的人名被忽略的可能性是四倍。这些发现突出了仅仅依靠LLM来保护用户隐私的未被充分探索的风险,并强调需要对它们的隐私失败模式进行更系统的调查。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在识别个人身份信息(PII),特别是人名时存在的可靠性问题。现有基于LLM的隐私保护方案依赖于LLM准确识别PII,但LLM在处理上下文模糊的人名时表现不佳,导致隐私泄露风险。现有方法缺乏对LLM在识别模糊人名方面的系统性评估。

核心思路:论文的核心思路是通过构建一个包含上下文模糊人名的基准数据集AMBENCH,并结合良性提示注入,系统性地评估LLM在识别PII方面的能力。通过分析LLM在AMBENCH上的表现,揭示其在处理模糊人名时存在的缺陷,从而推动更可靠的隐私保护方案的开发。

技术框架:论文主要包含以下几个部分:1) 提出问题,指出LLM在识别PII方面的潜在风险;2) 构建AMBENCH数据集,包含模糊人名和良性提示注入;3) 设计实验,评估LLM在AMBENCH上的PII识别能力和隐私保护摘要生成能力;4) 分析实验结果,揭示LLM在处理模糊人名时存在的缺陷;5) 提出改进建议,强调需要更系统地研究LLM的隐私失败模式。

关键创新:论文的关键创新在于:1) 提出了AMBENCH数据集,这是一个专门用于评估LLM在识别模糊人名方面能力的基准数据集;2) 结合良性提示注入,模拟了真实场景中可能存在的干扰因素,使评估结果更具代表性;3) 系统性地评估了LLM在PII识别和隐私保护摘要生成方面的能力,揭示了其在处理模糊人名时存在的缺陷。

关键设计:AMBENCH数据集包含一系列简洁的文本片段,每个片段包含一个或多个人名,并结合良性提示注入,例如使用常见的短语或句子结构,使人名所处的上下文更加模糊。实验中,使用了多种现代LLM和专用工具,并采用召回率等指标来评估其PII识别能力。良性提示注入的具体形式和强度是关键的设计参数,需要根据具体场景进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,与更容易识别的名称相比,模糊名称的召回率下降了20-40%。此外,在存在良性提示注入的情况下,在LLM生成的隐私保护摘要中,模糊的人名被忽略的可能性是四倍。这些数据清晰地展示了LLM在处理模糊人名时存在的缺陷。

🎯 应用场景

该研究成果可应用于改进现有基于LLM的隐私保护系统,例如数据脱敏、匿名化处理等。通过使用AMBENCH数据集评估和优化LLM的PII识别能力,可以降低隐私泄露的风险。此外,该研究也为未来开发更可靠的隐私保护技术提供了新的思路和方向。

📄 摘要(原文)

Large language models (LLMs) are increasingly being used to protect sensitive user data. However, current LLM-based privacy solutions assume that these models can reliably detect personally identifiable information (PII), particularly named entities. In this paper, we challenge that assumption by revealing systematic failures in LLM-based privacy tasks. Specifically, we show that modern LLMs regularly overlook human names even in short text snippets due to ambiguous contexts, which cause the names to be misinterpreted or mishandled. We propose AMBENCH, a benchmark dataset of seemingly ambiguous human names, leveraging the name regularity bias phenomenon, embedded within concise text snippets along with benign prompt injections. Our experiments on modern LLMs tasked to detect PII as well as specialized tools show that recall of ambiguous names drops by 20--40% compared to more recognizable names. Furthermore, ambiguous human names are four times more likely to be ignored in supposedly privacy-preserving summaries generated by LLMs when benign prompt injections are present. These findings highlight the underexplored risks of relying solely on LLMs to safeguard user privacy and underscore the need for a more systematic investigation into their privacy failure modes.