Can Large Language Models Really Recognize Your Name?
作者: Dzung Pham, Peter Kairouz, Niloofar Mireshghallah, Eugene Bagdasarian, Chau Minh Pham, Amir Houmansadr
分类: cs.CR, cs.AI
发布日期: 2025-05-20
💡 一句话要点
提出AMBENCH基准以解决LLM隐私识别问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 个人身份信息 隐私保护 模糊人名 基准数据集 召回率 自然语言处理 数据安全
📋 核心要点
- 现有LLM隐私解决方案假设模型能可靠识别个人身份信息,但实际表现不佳。
- 论文提出AMBENCH基准数据集,专注于模糊人名的检测,揭示LLM的识别局限性。
- 实验表明,模糊人名的召回率比易识别的人名低20-40%,并且在隐私保护摘要中被忽视的概率更高。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被用于保护用户的敏感数据。然而,现有的基于LLM的隐私解决方案假设这些模型能够可靠地检测个人身份信息(PII),尤其是命名实体。本文挑战了这一假设,揭示了LLM在隐私任务中的系统性失败。我们发现现代LLM在短文本片段中经常忽视人名,尤其是在模糊上下文中,导致人名被误解或处理不当。为此,我们提出了AMBENCH,一个包含模糊人名的基准数据集,利用了人名规律偏差现象。实验结果显示,模糊人名的召回率比更易识别的人名低20-40%。这些发现强调了单靠LLM来保护用户隐私的风险,并呼吁对其隐私失败模式进行更系统的研究。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在识别个人身份信息时的系统性失败,尤其是对模糊人名的识别不足。现有方法未能充分考虑上下文的模糊性,导致识别率低下。
核心思路:论文提出AMBENCH基准数据集,专注于模糊人名的检测,利用人名规律偏差现象,帮助LLM更好地识别这些信息。
技术框架:整体架构包括数据集构建、模型训练和评估三个主要阶段。数据集包含多种模糊人名,模型则通过这些数据进行训练和测试。
关键创新:最重要的创新在于AMBENCH数据集的构建,它专门设计用于评估LLM在处理模糊人名时的性能,与现有的标准数据集相比,提供了更具挑战性的测试环境。
关键设计:在实验中,使用了多种LLM和专门的工具进行比较,设置了不同的参数以优化模型的召回率,特别关注模糊人名的上下文处理。实验结果显示,模糊人名的召回率显著低于易识别的人名。
📊 实验亮点
实验结果显示,模糊人名的召回率比更易识别的人名低20-40%。此外,在生成的隐私保护摘要中,模糊人名被忽视的概率是其他人名的四倍。这些数据突显了LLM在隐私保护任务中的局限性。
🎯 应用场景
该研究的潜在应用领域包括用户隐私保护、数据安全和自然语言处理等。通过改进LLM对模糊人名的识别能力,可以增强用户数据的安全性,降低隐私泄露的风险。未来,AMBENCH基准可能成为评估LLM隐私保护能力的重要工具,推动相关技术的发展。
📄 摘要(原文)
Large language models (LLMs) are increasingly being used to protect sensitive user data. However, current LLM-based privacy solutions assume that these models can reliably detect personally identifiable information (PII), particularly named entities. In this paper, we challenge that assumption by revealing systematic failures in LLM-based privacy tasks. Specifically, we show that modern LLMs regularly overlook human names even in short text snippets due to ambiguous contexts, which cause the names to be misinterpreted or mishandled. We propose AMBENCH, a benchmark dataset of seemingly ambiguous human names, leveraging the name regularity bias phenomenon, embedded within concise text snippets along with benign prompt injections. Our experiments on modern LLMs tasked to detect PII as well as specialized tools show that recall of ambiguous names drops by 20--40% compared to more recognizable names. Furthermore, ambiguous human names are four times more likely to be ignored in supposedly privacy-preserving summaries generated by LLMs when benign prompt injections are present. These findings highlight the underexplored risks of relying solely on LLMs to safeguard user privacy and underscore the need for a more systematic investigation into their privacy failure modes.