An LLM-enabled semantic-centric framework to consume privacy policies
作者: Rui Zhao, Vladyslav Melnychuk, Jun Zhao, Jesse Wright, Nigel Shadbolt
分类: cs.AI, cs.CL
发布日期: 2025-09-01
💡 一句话要点
提出一种基于LLM的语义中心框架,用于解析隐私政策并构建知识图谱。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 隐私政策分析 大型语言模型 知识图谱 数据隐私词汇表 语义理解
📋 核心要点
- 用户通常忽略难以理解的隐私政策,导致数据隐私实践模糊,阻碍了用户中心Web发展。
- 利用大型语言模型自动识别隐私政策中的关键信息,构建基于数据隐私词汇表的知识图谱。
- 通过法律专家注释丰富数据集,并对不同LLM进行基准测试,验证了该方法的可行性。
📝 摘要(中文)
由于理解上的困难,人们很少阅读在线服务的服务条款或隐私政策。数据隐私实践的模糊性阻碍了以用户为中心的Web方法以及在代理世界中的数据共享和重用。现有研究提出了使用形式语言和推理来验证指定策略合规性的方法,但大规模创建或获取此类形式化策略仍然存在关键差距。本文提出了一种以语义为中心的方法,利用先进的大型语言模型(LLM)自动识别隐私政策中的关键信息,并构建 $\mathit{Pr}^2\mathit{Graph}$,这是一个基于数据隐私词汇表(DPV)的知识图谱,用于支持下游任务。通过该流程,还发布了前100个热门网站的 $\mathit{Pr}^2\mathit{Graph}$ 作为公共资源。本文还展示了如何使用 $\mathit{Pr}^2\mathit{Graph}$ 通过构建诸如开放数字权利语言(ODRL)或永久语义数据使用条款(psDToU)之类的形式化策略表示来支持下游任务。为了评估技术能力,本文通过聘请法律专家创建自定义注释来丰富 Policy-IE 数据集。对不同的大型语言模型进行了基准测试,验证了它们的能力。总体而言,这项工作揭示了大规模分析在线服务隐私实践的可能性,为审计Web和Internet提供了一个有希望的方向。所有数据集和源代码均作为公共资源发布,以方便重用和改进。
🔬 方法详解
问题定义:论文旨在解决用户难以理解和分析大量在线服务隐私政策的问题。现有方法依赖于人工分析或有限的自动化工具,无法有效处理大规模的隐私政策,并且缺乏对隐私实践的深入语义理解。现有方法难以大规模创建和获取形式化策略。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言理解能力,自动从隐私政策中提取关键信息,并将其组织成结构化的知识图谱。通过将隐私政策与数据隐私词汇表(DPV)对齐,实现对隐私实践的语义理解和推理。
技术框架:该框架包含以下主要阶段:1) 使用LLM从隐私政策文本中提取关键信息,例如数据收集、使用、共享等;2) 将提取的信息与DPV中的概念进行映射,构建 $\mathit{Pr}^2\mathit{Graph}$ 知识图谱;3) 利用知识图谱支持下游任务,例如生成形式化策略表示(ODRL, psDToU)和进行合规性验证。
关键创新:该方法的主要创新在于将LLM应用于隐私政策的语义分析,并构建了基于DPV的知识图谱。这种方法能够自动地、大规模地提取和组织隐私政策中的关键信息,并支持对隐私实践的深入理解和推理。与现有方法相比,该方法具有更高的自动化程度和更强的语义表达能力。
关键设计:论文的关键设计包括:1) 使用特定的prompt工程来指导LLM提取信息;2) 设计了 $\mathit{Pr}^2\mathit{Graph}$ 知识图谱的结构,使其能够有效地表示隐私政策中的各种概念和关系;3) 使用法律专家进行数据标注,以提高LLM的准确性和可靠性。具体的参数设置、损失函数、网络结构等技术细节在论文中未详细说明,属于LLM本身的能力。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了该方法的可行性和有效性。通过法律专家注释丰富 Policy-IE 数据集,并对不同LLM进行了基准测试,验证了它们在隐私政策分析方面的能力。具体性能数据和提升幅度在摘要中未明确给出,需要查阅论文全文。
🎯 应用场景
该研究成果可应用于自动化隐私政策分析、合规性检查、用户隐私风险评估等领域。通过构建大规模的隐私政策知识图谱,可以帮助用户更好地理解在线服务的隐私实践,并促进数据隐私保护。
📄 摘要(原文)
In modern times, people have numerous online accounts, but they rarely read the Terms of Service or Privacy Policy of those sites, despite claiming otherwise, due to the practical difficulty in comprehending them. The mist of data privacy practices forms a major barrier for user-centred Web approaches, and for data sharing and reusing in an agentic world. Existing research proposed methods for using formal languages and reasoning for verifying the compliance of a specified policy, as a potential cure for ignoring privacy policies. However, a critical gap remains in the creation or acquisition of such formal policies at scale. We present a semantic-centric approach for using state-of-the-art large language models (LLM), to automatically identify key information about privacy practices from privacy policies, and construct $\mathit{Pr}^2\mathit{Graph}$, knowledge graph with grounding from Data Privacy Vocabulary (DPV) for privacy practices, to support downstream tasks. Along with the pipeline, the $\mathit{Pr}^2\mathit{Graph}$ for the top-100 popular websites is also released as a public resource, by using the pipeline for analysis. We also demonstrate how the $\mathit{Pr}^2\mathit{Graph}$ can be used to support downstream tasks by constructing formal policy representations such as Open Digital Right Language (ODRL) or perennial semantic Data Terms of Use (psDToU). To evaluate the technology capability, we enriched the Policy-IE dataset by employing legal experts to create custom annotations. We benchmarked the performance of different large language models for our pipeline and verified their capabilities. Overall, they shed light on the possibility of large-scale analysis of online services' privacy practices, as a promising direction to audit the Web and the Internet. We release all datasets and source code as public resources to facilitate reuse and improvement.