Beyond Theoretical Bounds: Empirical Privacy Loss Calibration for Text Rewriting Under Local Differential Privacy

📄 arXiv: 2603.22968v1 📥 PDF

作者: Weijun Li, Arnaud Grivet Sébert, Qiongkai Xu, Annabelle McIver, Mark Dras

分类: cs.CR, cs.CL

发布日期: 2026-03-24

备注: 22 pages, 11 figures, 5 tables


💡 一句话要点

提出TeDA框架,用于校准本地差分隐私下文本重写机制的经验隐私损失。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 本地差分隐私 文本重写 隐私校准 假设检验 文本可区分性

📋 核心要点

  1. 现有文本重写方法依赖于本地差分隐私(LDP),但其隐私参数ε难以解释和比较。
  2. TeDA框架通过假设检验,在文本表面和嵌入空间评估私有化文本的不可区分性,实现经验校准。
  3. 实验表明,相似的ε值可能对应不同的可区分性,TeDA为隐私-效用权衡提供更可比的评估。

📝 摘要(中文)

大型语言模型的日益普及,使得以保护隐私的方式共享文本数据的需求日益增长。一种重要的方法是通过本地差分隐私(LDP)下的文本重写来实现,即在发布前对输入文本进行本地混淆,并提供形式化的隐私保证。这些保证通常由参数ε表示,它限定了最坏情况下的隐私损失上限。然而,名义上的ε值通常难以解释,也难以在不同机制之间进行比较。本文研究了如何在LDP下对文本重写机制进行经验校准。我们提出了TeDA,它通过假设检验框架进行校准,在表面空间和嵌入空间中实例化文本可区分性审计,从而能够对私有化文本的不可区分性进行经验评估。通过将此校准应用于几种具有代表性的机制,我们证明了相似的名义ε界限可能意味着非常不同的可区分性水平。因此,经验校准为评估隐私-效用权衡提供了更具可比性的基础,并为实际LDP文本重写部署中的机制比较和分析提供了一种实用的工具。

🔬 方法详解

问题定义:现有基于本地差分隐私(LDP)的文本重写方法,虽然提供了形式化的隐私保证(通过参数ε),但ε值的实际意义难以理解,不同机制的ε值之间缺乏可比性。这使得在实际应用中难以选择合适的机制,也难以评估隐私保护的有效性。现有方法缺乏一种有效的手段来经验性地评估和比较不同LDP文本重写机制的隐私损失。

核心思路:论文的核心思路是通过假设检验来评估私有化文本的可区分性。如果攻击者无法有效地区分原始文本和私有化后的文本,则认为该机制提供了较好的隐私保护。论文设计了在文本表面空间和嵌入空间进行可区分性审计的方法,从而能够更全面地评估隐私损失。

技术框架:TeDA框架包含以下几个主要步骤:1) 选择一组原始文本。2) 使用不同的LDP文本重写机制对这些文本进行私有化处理。3) 在文本表面空间和嵌入空间,设计可区分性审计。4) 使用假设检验来评估攻击者区分原始文本和私有化文本的能力。5) 根据假设检验的结果,校准不同机制的经验隐私损失。

关键创新:TeDA的关键创新在于提出了一个基于假设检验的经验隐私损失校准框架。与传统的依赖于理论ε值的方法不同,TeDA直接评估私有化文本的可区分性,从而能够更准确地反映实际的隐私保护效果。此外,TeDA同时考虑了文本的表面特征和语义特征,从而能够更全面地评估隐私损失。

关键设计:在文本表面空间,论文使用n-gram频率作为特征,并使用卡方检验来评估可区分性。在嵌入空间,论文使用预训练语言模型(如BERT)提取文本的嵌入向量,并使用分类器来区分原始文本和私有化文本。论文还设计了一种自适应的假设检验方法,以提高校准的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,即使具有相似名义ε值的LDP文本重写机制,其可区分性也可能存在显著差异。例如,某些机制在文本表面空间表现出较好的隐私保护效果,但在嵌入空间则容易被区分。TeDA框架能够有效地捕捉这些差异,并为隐私-效用权衡提供更可靠的依据。

🎯 应用场景

该研究成果可应用于各种需要保护文本数据隐私的场景,例如医疗记录共享、用户评论分析、金融交易数据发布等。通过使用TeDA框架,可以更准确地评估和比较不同LDP文本重写机制的隐私保护效果,从而选择最适合特定应用场景的机制。这有助于在保护用户隐私的同时,最大限度地利用文本数据。

📄 摘要(原文)

The growing use of large language models has increased interest in sharing textual data in a privacy-preserving manner. One prominent line of work addresses this challenge through text rewriting under Local Differential Privacy (LDP), where input texts are locally obfuscated before release with formal privacy guarantees. These guarantees are typically expressed by a parameter $\varepsilon$ that upper bounds the worst-case privacy loss. However, nominal $\varepsilon$ values are often difficult to interpret and compare across mechanisms. In this work, we investigate how to empirically calibrate across text rewriting mechanisms under LDP. We propose TeDA, which formulates calibration via a hypothesis-testing framework that instantiates text distinguishability audits in both surface and embedding spaces, enabling empirical assessment of indistinguishability from privatized texts. Applying this calibration to several representative mechanisms, we demonstrate that similar nominal $\varepsilon$ bounds can imply very different levels of distinguishability. Empirical calibration thus provides a more comparable footing for evaluating privacy-utility trade-offs, as well as a practical tool for mechanism comparison and analysis in real-world LDP text rewriting deployments.