Human-Centred LLM Privacy Audits: Findings and Frictions
作者: Dimitri Staufer, Kirsten Morehouse, David Hartmann, Bettina Berendt
分类: cs.HC, cs.AI, cs.CL, cs.CY
发布日期: 2026-03-12
💡 一句话要点
提出LMP2工具,研究LLM对个人信息的关联及用户隐私感知,揭示生成式AI评估困境。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 隐私审计 用户研究 生成式AI 隐私保护
📋 核心要点
- 现有方法缺乏有效手段,让用户了解并控制LLM如何将其姓名与个人信息关联,存在隐私风险。
- 论文提出LMP2工具,使用户能够自我审计LLM对其个人信息的关联,并评估用户对隐私的感知。
- 实验表明,GPT-4o能以较高准确率预测个人特征,但用户对LLM输出的隐私感知复杂,并非所有关联都被视为侵犯隐私。
📝 摘要(中文)
大型语言模型(LLM)从海量训练语料库和用户交互中学习统计关联,部署的系统可以呈现或推断关于个人的信息。然而,人们缺乏实际的方法来检查模型将其姓名与哪些信息相关联。我们报告了一项正在进行的研究的中期发现,并介绍了一种基于浏览器的自审计工具LMP2。在两项用户研究(总人数458)中,GPT-4o预测普通人的50个特征中的11个,准确率≥60%,参与者表示希望控制LLM生成的关联,尽管并非所有输出都被认为是侵犯隐私。为了验证我们的探测方法,我们评估了八个LLM在公众人物和不存在的名字上的表现,观察到稳定的姓名条件关联和模型默认值之间存在明显分离。我们的发现还有助于揭示更广泛的生成式AI评估危机:当输出是概率性的、上下文相关的,并且通过引出来自用户介导时,模型-个体关联甚至包括什么是不明确的,并且操作化依赖于设计难以验证或比较的探测和指标。为了朝着可靠、可操作的以人为中心的LLM隐私审计发展,我们确定了研究中出现的九个摩擦,并为未来的工作和以人为中心的LLM隐私审计的设计提供了建议。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)可能泄露或推断个人隐私信息的问题。现有方法的痛点在于,用户缺乏有效的工具和方法来了解LLM如何将其姓名与个人信息相关联,也难以评估这些关联是否侵犯了个人隐私。此外,由于LLM输出的概率性、上下文相关性和用户交互的介入,使得评估模型与个人关联的边界变得模糊,难以设计有效的评估指标。
核心思路:论文的核心思路是设计一个以人为中心的自审计工具LMP2,使用户能够主动探测LLM对其个人信息的关联,并评估这些关联是否侵犯了其隐私。通过用户参与的实验,收集用户对LLM输出的隐私感知,从而更全面地了解LLM隐私风险。同时,通过对公众人物和虚构人物的实验,验证探测方法的有效性,并区分稳定的姓名条件关联和模型默认值。
技术框架:论文的技术框架主要包括以下几个阶段:1. 设计并开发基于浏览器的自审计工具LMP2,该工具允许用户输入姓名,并向LLM提出一系列问题,以探测LLM对其个人信息的关联。2. 进行用户研究,收集用户对LLM输出的隐私感知,并分析用户对不同类型关联的接受程度。3. 对公众人物和虚构人物进行实验,验证探测方法的有效性,并区分稳定的姓名条件关联和模型默认值。4. 分析实验结果,识别LLM隐私审计中存在的摩擦,并提出改进建议。
关键创新:论文的关键创新在于:1. 提出了以人为中心的LLM隐私审计方法,强调用户在隐私评估中的作用。2. 设计并开发了LMP2工具,为用户提供了一种实际可用的LLM隐私自审计手段。3. 揭示了生成式AI评估中存在的困境,即由于LLM输出的概率性、上下文相关性和用户交互的介入,使得评估模型与个人关联的边界变得模糊,难以设计有效的评估指标。
关键设计:LMP2工具的关键设计包括:1. 提供用户友好的界面,使用户能够轻松输入姓名并与LLM进行交互。2. 设计一系列问题,以探测LLM对用户个人信息的关联,例如年龄、性别、职业、兴趣爱好等。3. 允许用户对LLM的输出进行评分,以评估其隐私感知。4. 采用多种评估指标,例如准确率、召回率、F1值等,来评估LLM的隐私风险。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o能够以≥60%的准确率预测普通人的50个特征中的11个,表明LLM确实存在泄露个人信息的风险。用户研究发现,用户对LLM输出的隐私感知复杂,并非所有关联都被认为是侵犯隐私,表明隐私评估需要考虑用户的个体差异。对公众人物和虚构人物的实验,验证了探测方法的有效性,并区分了稳定的姓名条件关联和模型默认值。
🎯 应用场景
该研究成果可应用于提升大型语言模型的隐私保护能力,例如开发更有效的隐私过滤机制,减少个人信息泄露的风险。同时,该研究提出的以人为中心的隐私审计方法,可用于指导LLM的开发和部署,使其更加符合用户的隐私期望。此外,LMP2工具可作为一种教育工具,帮助用户了解LLM的隐私风险,提高其隐私保护意识。
📄 摘要(原文)
Large language models (LLMs) learn statistical associations from massive training corpora and user interactions, and deployed systems can surface or infer information about individuals. Yet people lack practical ways to inspect what a model associates with their name. We report interim findings from an ongoing study and introduce LMP2, a browser-based self-audit tool. In two user studies ($N_{total}{=}458$), GPT-4o predicts 11 of 50 features for everyday people with $\ge$60\% accuracy, and participants report wanting control over LLM-generated associations despite not considering all outputs privacy violations. To validate our probing method, we evaluate eight LLMs on public figures and non-existent names, observing clear separation between stable name-conditioned associations and model defaults. Our findings also contribute to exposing a broader generative AI evaluation crisis: when outputs are probabilistic, context-dependent, and user-mediated through elicitation, what model--individual associations even include is under-specified and operationalisation relies on crafting probes and metrics that are hard to validate or compare. To move towards reliable, actionable human-centred LLM privacy audits, we identify nine frictions that emerged in our study and offer recommendations for future work and the design of human-centred LLM privacy audits.