Addressing Labelled Data Scarcity: Taxonomy-Agnostic Annotation of PII Values in HTTP Traffic using LLMs
作者: Thomas Cory, Axel Küpper
分类: cs.AI, cs.IR
发布日期: 2026-05-07
备注: Accepted to 2026 IEEE European Symposium on Security and Privacy Workshops (EuroS&PW)
💡 一句话要点
提出基于LLM的HTTP流量PII值分类标注方法,解决标注数据稀缺和分类体系固定的问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 个人身份信息 HTTP流量分析 隐私保护 数据标注
📋 核心要点
- 现有PII检测器依赖于人工标注数据,且与固定分类体系耦合,限制了其泛化能力和适应性。
- 提出一种基于LLM的多阶段流水线,实现与分类体系无关的PII标注,并生成合成HTTP流量进行评估。
- 实验结果表明,该方法能够准确检测PII类型并提取相应的值,为灵活的流量标注奠定基础。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在HTTP流量中个人身份信息(PII)值分类标注方面的应用,旨在解决现有基于学习的检测器依赖于稀缺的手动标注数据以及与固定标签分类体系紧密耦合的问题,从而限制了跨领域的可迁移性和PII定义的发展。论文提出了一种多阶段的基于LLM的流水线,该流水线结合了确定性的预处理、标签级别的分类、目标实例级别的值标注和输出验证。为了实现可控的评估和基于范例的提示,同时避免依赖敏感的真实用户捕获,论文还提出了一种基于LLM的合成HTTP流量生成器,该生成器具有手动验证的、基于分类体系的PII标注。论文在涵盖不同PII领域和粒度级别的三个分类体系上评估了该方法。结果表明,该流水线能够准确地检测PII类型并提取相应的具体PII分类体系的值。总而言之,研究结果表明LLM是灵活的、与分类体系无关的流量标注以及在不断发展的隐私分类体系下创建标注数据的有希望的基础。
🔬 方法详解
问题定义:现有基于机器学习的PII检测器依赖于大量人工标注的HTTP流量数据,而这些数据通常难以获取且成本高昂。此外,这些检测器通常针对特定的PII分类体系进行训练,难以适应新的PII类型或分类标准的变化。因此,如何利用有限的标注数据,构建一个能够灵活适应不同PII分类体系的检测器,是本文要解决的核心问题。
核心思路:本文的核心思路是利用大型语言模型(LLM)强大的语义理解和生成能力,构建一个与分类体系无关的PII标注流水线。通过将PII检测任务分解为多个子任务,并利用LLM在每个子任务上的优势,实现对HTTP流量中PII值的准确标注。同时,利用LLM生成合成HTTP流量数据,缓解标注数据稀缺的问题。
技术框架:该方法包含一个多阶段的LLM-based流水线,主要包括以下几个阶段:1) 确定性预处理:对HTTP流量数据进行清洗和解析,提取出可能包含PII值的部分。2) 标签级别分类:利用LLM对提取出的部分进行分类,判断其是否包含PII,并确定PII的类型。3) 实例级别值标注:利用LLM对包含PII的部分进行标注,提取出具体的PII值。4) 输出验证:对LLM的输出进行验证,确保标注的准确性。此外,还使用LLM生成合成HTTP流量数据,用于模型的训练和评估。
关键创新:该方法最重要的创新点在于其与分类体系无关的特性。通过利用LLM的语义理解能力,该方法可以根据给定的PII分类体系,动态地调整标注策略,从而适应不同的PII类型和分类标准。此外,利用LLM生成合成数据,缓解了标注数据稀缺的问题。
关键设计:在标签级别分类阶段,使用few-shot learning,通过提供少量的示例,引导LLM进行分类。在实例级别值标注阶段,使用prompt engineering,设计合适的prompt,引导LLM提取出具体的PII值。在输出验证阶段,使用正则表达式等方法,对LLM的输出进行验证,确保标注的准确性。合成数据生成阶段,通过人工定义模板和规则,控制生成数据的质量和多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在三个不同的PII分类体系上均取得了良好的效果,能够准确地检测PII类型并提取相应的PII值。与传统的基于规则的方法相比,该方法具有更高的灵活性和适应性。此外,利用LLM生成的合成数据可以有效地缓解标注数据稀缺的问题。
🎯 应用场景
该研究成果可应用于Web和移动应用的自动化隐私审计,帮助开发者检测和防止PII泄露。此外,该方法还可以用于构建动态的、可定制的PII检测系统,适应不断变化的隐私法规和用户需求。该技术在数据安全、隐私保护等领域具有广阔的应用前景。
📄 摘要(原文)
Automated privacy audits of web and mobile applications often analyse outbound HTTP traffic to detect Personally Identifiable Information (PII) leakage. However, existing learning-based detectors typically depend on scarce, manually labelled traffic and are tightly coupled to fixed label taxonomies, limiting transferability across domains and evolving definitions of PII. This paper investigates whether Large Language Models (LLMs) can support taxonomy-agnostic annotation of explicitly transmitted PII values in HTTP message bodies when the taxonomy is provided at runtime. We introduce a multi-stage LLM-based pipeline that combines deterministic pre-processing with label-level classification, targeted instance-level value annotation, and output validation. To enable controlled evaluation and exemplar-based prompting without relying on sensitive real-user captures, we further propose an LLM-based generator for synthetic HTTP traffic with manually validated, taxonomy-derived PII annotations. We evaluate the approach across three taxonomies spanning different PII domains and granularity levels. Results show that the pipeline accurately detects PII types and extracts corresponding values for concrete PII taxonomies. Overall, our findings position LLMs as a promising foundation for flexible, taxonomy-agnostic traffic annotation and for creating labelled data under evolving privacy taxonomies.