Do You Really Need Public Data? Surrogate Public Data for Differential Privacy on Tabular Data
作者: Shlomi Hod, Lucas Rosenblatt, Julia Stoyanovich
分类: cs.LG, cs.CR
发布日期: 2025-04-19
💡 一句话要点
提出利用模式信息的代理公共数据,解决表格数据差分隐私学习中公共数据依赖问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 差分隐私 表格数据 公共数据 大型语言模型 数据生成 隐私保护 机器学习
📋 核心要点
- 差分隐私机器学习依赖公共数据,但在表格数据领域,由于数据异构性,获取合适的公共数据面临挑战。
- 本文提出利用大型语言模型,仅基于公开的模式信息生成“代理”公共数据,无需访问敏感数据。
- 实验表明,代理公共数据在预训练差分隐私分类器方面可有效替代传统公共数据,并对超参数调优等任务有一定帮助。
📝 摘要(中文)
差分隐私(DP)机器学习通常依赖公共数据来完成隐私-效用权衡估计、超参数调优和预训练等任务。虽然公共数据假设在文本和图像领域可能合理,但由于表格数据在不同领域间的异构性,这种假设在表格数据上不太成立。本文提出利用强大的先验知识来解决这一局限性;具体来说,我们直接从模式级别的规范(例如变量名、类型和允许的范围)合成真实的表格数据,而无需访问敏感记录。为此,本文引入了“代理”公共数据的概念——独立于敏感数据生成的数据集,不消耗任何隐私损失预算,并且仅从公开可用的模式或元数据构建。代理公共数据旨在将合理的统计假设(由公开可用的信息告知)编码到数据集中,以便在私有机制中进行许多下游使用。我们使用大型语言模型(LLM)自动化生成代理公共数据的过程;特别地,我们提出了两种方法:直接生成CSV文件形式的记录,以及自动构建结构因果模型(SCM)来采样记录。通过大量的实验,我们证明了代理公共表格数据可以有效地替代传统的公共数据,用于预训练差分隐私表格分类器。在较小程度上,代理公共数据对于DP合成数据生成器的超参数调优以及估计隐私-效用权衡也很有用。
🔬 方法详解
问题定义:在差分隐私机器学习中,许多任务(如隐私-效用权衡估计、超参数调优、预训练)依赖于公共数据集。然而,对于表格数据,由于不同领域的数据分布差异很大,难以找到合适的公共数据集。现有的方法要么假设存在可用的公共数据,要么需要从敏感数据中提取信息,这会带来隐私风险。
核心思路:本文的核心思路是利用公开可用的模式信息(如变量名、类型、取值范围)生成“代理”公共数据。这些数据独立于敏感数据生成,不消耗隐私预算,但能够捕捉到表格数据的基本统计特征。通过使用大型语言模型(LLM)来自动化生成过程,可以高效地创建高质量的代理公共数据。
技术框架:整体框架包含以下几个主要步骤:1) 获取表格数据的模式信息;2) 使用LLM基于模式信息生成代理公共数据;3) 将代理公共数据用于差分隐私机器学习的下游任务(如预训练、超参数调优);4) 评估代理公共数据在下游任务中的性能。LLM在其中扮演核心角色,负责根据模式信息生成符合统计规律的表格数据。
关键创新:最重要的创新点在于提出了“代理”公共数据的概念,并利用LLM自动化生成过程。与传统方法相比,该方法无需访问敏感数据,也不依赖于领域内现有的公共数据集,从而解决了表格数据差分隐私学习中的公共数据依赖问题。此外,利用LLM的强大生成能力,可以生成更真实、更具多样性的代理公共数据。
关键设计:论文提出了两种利用LLM生成代理公共数据的方法:1) 直接生成CSV文件形式的记录:LLM直接根据模式信息生成表格数据,需要设计合适的prompt来引导LLM生成符合统计规律的数据。2) 自动构建结构因果模型(SCM)来采样记录:LLM根据模式信息生成SCM,然后从SCM中采样数据。这种方法可以更好地捕捉变量之间的因果关系,生成更真实的代理公共数据。关键设计包括如何设计prompt,如何选择合适的LLM,以及如何评估生成的代理公共数据的质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用代理公共数据预训练的差分隐私表格分类器,其性能与使用真实公共数据预训练的分类器相当,甚至在某些情况下优于后者。此外,代理公共数据在超参数调优和隐私-效用权衡估计方面也表现出一定的有效性。这些结果验证了代理公共数据作为传统公共数据替代方案的可行性。
🎯 应用场景
该研究成果可广泛应用于需要进行差分隐私保护的表格数据分析场景,例如医疗健康、金融、社会科学等领域。通过使用代理公共数据,可以降低对真实公共数据的依赖,提高数据隐私保护水平,并促进差分隐私机器学习算法的实际应用。未来,该方法可以扩展到其他类型的数据,例如时间序列数据、图数据等。
📄 摘要(原文)
Differentially private (DP) machine learning often relies on the availability of public data for tasks like privacy-utility trade-off estimation, hyperparameter tuning, and pretraining. While public data assumptions may be reasonable in text and image domains, they are less likely to hold for tabular data due to tabular data heterogeneity across domains. We propose leveraging powerful priors to address this limitation; specifically, we synthesize realistic tabular data directly from schema-level specifications - such as variable names, types, and permissible ranges - without ever accessing sensitive records. To that end, this work introduces the notion of "surrogate" public data - datasets generated independently of sensitive data, which consume no privacy loss budget and are constructed solely from publicly available schema or metadata. Surrogate public data are intended to encode plausible statistical assumptions (informed by publicly available information) into a dataset with many downstream uses in private mechanisms. We automate the process of generating surrogate public data with large language models (LLMs); in particular, we propose two methods: direct record generation as CSV files, and automated structural causal model (SCM) construction for sampling records. Through extensive experiments, we demonstrate that surrogate public tabular data can effectively replace traditional public data when pretraining differentially private tabular classifiers. To a lesser extent, surrogate public data are also useful for hyperparameter tuning of DP synthetic data generators, and for estimating the privacy-utility tradeoff.