Word-level Annotation of GDPR Transparency Compliance in Privacy Policies using Large Language Models
作者: Thomas Cory, Wolf Rieder, Julia Krämer, Philip Raschke, Patrick Herbke, Axel Küpper
分类: cs.CL, cs.AI
发布日期: 2025-03-13 (更新: 2025-11-24)
备注: Accepted to Proceedings on Privacy Enhancing Technologies (PoPETs) 1 (2026)
💡 一句话要点
提出基于LLM的模块化流程,用于隐私政策中GDPR透明度合规性的词级别标注。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: GDPR合规性 隐私政策 大型语言模型 词级别标注 自动化评估
📋 核心要点
- 现有隐私政策合规性评估方法缺乏细粒度,人工审核成本高昂且不一致,难以应对大规模场景。
- 提出一种基于LLM的模块化流程,结合段落分类、检索增强生成和自我纠正,实现上下文感知的词级别标注。
- 构建了包含70万+隐私政策的语料库,并进行了人工标注,实验表明该方法显著提高了标注准确性。
📝 摘要(中文)
通用数据保护条例(GDPR)的核心要求是确保与个人信息相关的数据实践的透明度。然而,由于隐私政策语言的复杂性和多样性,大规模的合规性评估仍然具有挑战性。人工审计既费力又不一致,而当前的自动化方法通常缺乏捕获细微透明度披露所需的粒度。本文提出了一种基于大型语言模型(LLM)的模块化流程,用于对隐私政策进行细粒度的词级别标注,以满足GDPR透明度要求。我们的方法将LLM驱动的标注与段落级分类、检索增强生成和自我纠正机制相结合,从而在21个GDPR衍生的透明度要求中提供可扩展的、上下文感知的标注。为了支持实证评估,我们编制了一个包含703,791个英语隐私政策的语料库,并基于全面的、与GDPR对齐的标注方案,生成了一个包含200个手动标注策略的ground-truth样本。我们提出了一种两层评估方法,捕捉段落级分类和跨度级标注质量,并对两个标注方案(包括广泛使用的OPP-115数据集)上的七个最先进的LLM进行了比较分析。评估结果表明,分解标注任务并集成有针对性的检索和分类组件可以显著提高标注准确性,特别是对于结构良好的要求。我们的工作为大规模推进自动化透明度合规性评估提供了新的经验资源和方法论基础。
🔬 方法详解
问题定义:论文旨在解决大规模隐私政策中GDPR透明度合规性评估的问题。现有方法,如人工审计,成本高昂且主观性强。现有的自动化方法通常粒度不够细,无法捕捉到隐私政策中细微的透明度披露信息。因此,需要一种能够自动、准确、高效地进行细粒度合规性评估的方法。
核心思路:论文的核心思路是将复杂的标注任务分解为多个模块,利用LLM的强大能力进行上下文理解和生成,并通过检索增强和自我纠正机制来提高标注的准确性和鲁棒性。这种模块化的设计使得系统可以灵活地适应不同的GDPR透明度要求,并易于扩展和维护。
技术框架:该方法采用一个模块化的LLM-based pipeline,主要包含以下几个阶段:1) 段落级分类:使用LLM对隐私政策的段落进行分类,判断其是否与特定的GDPR透明度要求相关。2) 检索增强生成:利用检索技术,从大规模语料库中检索与当前段落相关的上下文信息,并将其输入到LLM中,以增强LLM的生成能力。3) LLM驱动的标注:使用LLM对段落中的每个词进行标注,判断其是否符合特定的GDPR透明度要求。4) 自我纠正:使用LLM对标注结果进行自我纠正,以提高标注的准确性。
关键创新:该方法的主要创新点在于:1) 提出了一个模块化的LLM-based pipeline,可以灵活地适应不同的GDPR透明度要求。2) 结合了段落级分类、检索增强生成和自我纠正机制,显著提高了标注的准确性和鲁棒性。3) 构建了一个大规模的隐私政策语料库,并进行了人工标注,为研究提供了宝贵的数据资源。
关键设计:论文中没有详细描述关键的参数设置、损失函数、网络结构等技术细节。但是,可以推断,LLM的选择和微调、检索模型的选择和训练、以及自我纠正机制的设计是影响系统性能的关键因素。具体的技术细节可能需要参考相关的LLM和检索技术的文献。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在GDPR透明度合规性标注任务上取得了显著的性能提升。通过分解标注任务并集成有针对性的检索和分类组件,标注准确性得到了显著提高,尤其是在结构良好的要求方面。与直接使用LLM进行标注相比,该方法的性能提升幅度未知,但论文强调了模块化设计和检索增强的有效性。
🎯 应用场景
该研究成果可应用于自动化隐私合规性评估、隐私政策生成和改进、以及用户隐私保护等领域。企业可以使用该系统自动评估其隐私政策的合规性,并及时发现和修复潜在的违规行为。监管机构可以使用该系统进行大规模的合规性审计,提高监管效率。用户可以使用该系统更好地理解隐私政策,并保护自己的隐私权益。
📄 摘要(原文)
Ensuring transparency of data practices related to personal information is a core requirement of the General Data Protection Regulation (GDPR). However, large-scale compliance assessment remains challenging due to the complexity and diversity of privacy policy language. Manual audits are labour-intensive and inconsistent, while current automated methods often lack the granularity required to capture nuanced transparency disclosures. In this paper, we present a modular large language model (LLM)-based pipeline for fine-grained word-level annotation of privacy policies with respect to GDPR transparency requirements. Our approach integrates LLM-driven annotation with passage-level classification, retrieval-augmented generation, and a self-correction mechanism to deliver scalable, context-aware annotations across 21 GDPR-derived transparency requirements. To support empirical evaluation, we compile a corpus of 703,791 English-language privacy policies and generate a ground-truth sample of 200 manually annotated policies based on a comprehensive, GDPR-aligned annotation scheme. We propose a two-tiered evaluation methodology capturing both passage-level classification and span-level annotation quality and conduct a comparative analysis of seven state-of-the-art LLMs on two annotation schemes, including the widely used OPP-115 dataset. The results of our evaluation show that decomposing the annotation task and integrating targeted retrieval and classification components significantly improve annotation accuracy, particularly for well-structured requirements. Our work provides new empirical resources and methodological foundations for advancing automated transparency compliance assessment at scale.