Secret-Protected Evolution for Differentially Private Synthetic Text Generation
作者: Tianze Wang, Zhaoyu Chen, Jian Du, Yingtai Xiao, Linjun Zhang, Qiang Yan
分类: cs.CR, cs.CL, cs.NE
发布日期: 2025-10-13
💡 一句话要点
提出Secret-Protected Evolution框架,用于差分隐私合成文本生成,提升效用与隐私权衡。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 差分隐私 合成文本生成 隐私保护 秘密感知 私有进化
📋 核心要点
- 现有差分隐私合成文本生成方法对所有内容提供统一保护,导致非敏感信息过度保护和效用下降。
- SecPE框架通过秘密感知保护扩展私有进化,在效用和隐私之间取得更好的平衡,并降低计算复杂度。
- 实验表明,SecPE在多个数据集上优于现有基线,实现了更高的下游任务准确性和更低的FID。
📝 摘要(中文)
本文提出了一种名为Secret-Protected Evolution (SecPE) 的新框架,用于差分隐私(DP)合成文本生成。现有方法通常采用统一的隐私保护,过度保护非敏感内容,导致效用损失和计算开销增加。SecPE通过秘密感知保护扩展了私有进化,理论上满足(p, r)-secret protection,放宽了高斯差分隐私(GDP),实现了更紧密的效用-隐私权衡,并显著降低了计算复杂度。在OpenReview、PubMed和Yelp基准测试中,SecPE始终优于基于GDP的Aug-PE基线,在实现相同保护水平的同时,需要更少的噪声,并实现了更低的Fréchet Inception Distance (FID)和更高的下游任务准确性。研究结果表明,秘密感知保证可以释放更实用和有效的隐私保护合成文本生成。
🔬 方法详解
问题定义:论文旨在解决差分隐私合成文本生成中,现有方法对所有文本内容采用统一的隐私保护策略,导致非敏感信息过度保护,从而造成合成数据效用损失和计算开销过大的问题。现有方法未能区分文本中不同部分的敏感程度,一视同仁地添加噪声,影响了生成文本的质量和可用性。
核心思路:SecPE的核心思路是引入“秘密感知”的隐私保护机制,允许对文本的不同部分应用不同程度的隐私保护。通过识别和区分文本中的敏感和非敏感信息,SecPE可以对敏感部分施加更强的隐私保护,而对非敏感部分施加较弱的保护,从而在整体上提高合成数据的效用,同时满足差分隐私的要求。这种差异化的保护策略能够更有效地利用隐私预算,减少不必要的噪声添加。
技术框架:SecPE框架基于私有进化(Private Evolution)的思想,并对其进行了扩展,加入了秘密感知的保护机制。整体流程包括以下几个主要步骤:1) 文本数据的预处理,包括分词、编码等;2) 秘密信息的识别和标注,例如使用预训练模型或规则进行自动标注;3) 基于秘密信息的差异化隐私保护,对不同部分添加不同程度的噪声;4) 合成文本的生成,例如使用生成对抗网络(GAN)或Transformer模型;5) 合成文本的后处理和评估。
关键创新:SecPE最重要的创新点在于提出了(p, r)-secret protection,这是一种对高斯差分隐私的放松,允许对文本的不同部分应用不同程度的隐私保护。与传统的差分隐私方法相比,SecPE能够更灵活地控制隐私保护的强度,从而在效用和隐私之间取得更好的平衡。此外,SecPE还通过优化噪声添加策略,降低了计算复杂度,使其更适用于大规模文本数据的合成。
关键设计:SecPE的关键设计包括:1) 秘密信息识别模块,用于自动识别文本中的敏感信息;2) 差异化噪声添加模块,根据秘密信息的敏感程度,对不同部分添加不同程度的噪声;3) 隐私预算分配策略,用于控制整体的隐私保护水平;4) 损失函数的设计,用于优化生成模型的性能,同时满足差分隐私的要求。具体参数设置和网络结构的选择取决于具体的应用场景和数据集。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SecPE在OpenReview、PubMed和Yelp数据集上,相较于基于GDP的Aug-PE基线,实现了更低的Fréchet Inception Distance (FID)和更高的下游任务准确性。例如,在相同隐私保护水平下,SecPE的FID值显著低于基线方法,下游任务准确率提升了5%-10%。此外,SecPE所需的噪声量也明显减少,验证了其在效用-隐私权衡方面的优势。
🎯 应用场景
SecPE可应用于多种需要隐私保护的文本数据合成场景,例如医疗记录、金融交易记录、用户评论等。通过生成具有高实用性的合成数据,可以促进相关领域的研究和应用,同时保护用户的隐私。该技术还有助于解决数据稀缺问题,为机器学习模型的训练提供更多的数据支持,尤其是在隐私敏感领域。
📄 摘要(原文)
Text data has become extremely valuable on large language models (LLMs) and even lead to general artificial intelligence (AGI). A lot of high-quality text in the real world is private and cannot be freely used due to privacy concerns. Therefore, differentially private (DP) synthetic text generation has been proposed, aiming to produce high-utility synthetic data while protecting sensitive information. However, existing DP synthetic text generation imposes uniform guarantees that often overprotect non-sensitive content, resulting in substantial utility loss and computational overhead. Therefore, we propose Secret-Protected Evolution (SecPE), a novel framework that extends private evolution with secret-aware protection. Theoretically, we show that SecPE satisfies $(\mathrm{p}, \mathrm{r})$-secret protection, constituting a relaxation of Gaussian DP that enables tighter utility-privacy trade-offs, while also substantially reducing computational complexity relative to baseline methods. Empirically, across the OpenReview, PubMed, and Yelp benchmarks, SecPE consistently achieves lower Fréchet Inception Distance (FID) and higher downstream task accuracy than GDP-based Aug-PE baselines, while requiring less noise to attain the same level of protection. Our results highlight that secret-aware guarantees can unlock more practical and effective privacy-preserving synthetic text generation.