Contrastive Learning-Based privacy metrics in Tabular Synthetic Datasets
作者: Milton Nicolás Plasencia Palacios, Sebastiano Saccani, Gabriele Sgroi, Alexander Boudewijn, Luca Bortolussi
分类: cs.LG, cs.CR
发布日期: 2025-02-19 (更新: 2025-03-10)
💡 一句话要点
提出基于对比学习的隐私度量方法,用于评估表格合成数据集的隐私保护能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 对比学习 隐私度量 合成数据 表格数据 隐私保护
📋 核心要点
- 现有表格数据合成的隐私评估方法,如相似性度量和攻击方法,难以有效处理复杂数据类型和属性。
- 论文提出基于对比学习的嵌入方法,将数据映射到更具代表性的空间,从而简化隐私度量。
- 实验表明,该方法在隐私评估方面表现良好,且易于实现,可与更复杂的隐私度量方法相媲美。
📝 摘要(中文)
合成数据作为一种隐私增强技术(PET)在医疗保健和金融等领域备受关注。在实际应用中使用合成数据时,提供保护保证非常重要。针对表格数据,文献中提出了两类方法:一类是基于相似性的方法,旨在寻找训练数据和合成数据之间的相似程度。如果生成的数据与训练数据过于相似甚至相同,则可能发生隐私泄露。另一类是基于攻击的方法,对合成数据集进行有意的攻击。这些攻击的成功率揭示了合成数据集的安全性。本文提出了一种对比学习方法,通过将数据嵌入到更具代表性的空间中,从而改进了合成数据集的隐私评估。这克服了围绕多种数据类型和属性的障碍,并使得使用直观的距离度量进行相似性测量和作为攻击向量成为可能。在一系列使用公开数据集进行的实验中,我们比较了基于相似性和基于攻击的方法的性能,无论是否使用基于对比学习的嵌入。我们的结果表明,相对高效、易于实现的隐私度量可以与更高级的隐私度量(明确地模拟了GDPR所指的隐私条件)表现得一样好。
🔬 方法详解
问题定义:论文旨在解决表格合成数据集的隐私评估问题。现有方法,如基于相似性的度量和基于攻击的度量,在处理包含多种数据类型和属性的表格数据时面临挑战。这些方法难以有效地捕捉训练数据和合成数据之间的细微差异,从而可能导致对隐私风险的低估或高估。现有方法的另一个痛点是需要针对不同的数据类型设计不同的相似性度量或攻击策略,缺乏通用性。
核心思路:论文的核心思路是利用对比学习来学习数据的嵌入表示。通过对比学习,可以将原始数据映射到一个新的特征空间,在这个空间中,相似的数据点距离更近,不相似的数据点距离更远。这种嵌入表示能够更好地捕捉数据的内在结构和语义信息,从而使得基于距离的相似性度量和攻击方法更加有效。此外,对比学习可以学习到与数据类型无关的通用表示,从而避免了针对不同数据类型设计不同度量或攻击策略的需要。
技术框架:论文提出的技术框架主要包含以下几个步骤:1) 使用对比学习模型(例如,基于Transformer的模型或基于MLP的模型)对训练数据和合成数据进行嵌入表示学习。2) 使用学习到的嵌入表示计算训练数据和合成数据之间的相似性。可以使用各种距离度量,例如欧氏距离、余弦相似度等。3) 使用学习到的嵌入表示作为攻击向量,对合成数据进行攻击。例如,可以训练一个分类器来区分训练数据和合成数据。4) 根据相似性度量和攻击的成功率来评估合成数据集的隐私风险。
关键创新:论文的关键创新在于将对比学习引入到表格合成数据集的隐私评估中。与现有方法相比,该方法能够学习到更具代表性的数据嵌入表示,从而提高了隐私评估的准确性和鲁棒性。此外,该方法具有通用性,可以应用于各种类型的表格数据,而无需针对不同的数据类型进行特殊设计。
关键设计:论文中对比学习模型的具体结构和参数设置未知,损失函数也未知。但是,通常情况下,对比学习会使用InfoNCE损失或类似的损失函数来最大化相似数据点之间的互信息,并最小化不相似数据点之间的互信息。在训练对比学习模型时,需要选择合适的正样本和负样本。正样本可以是来自同一数据点的不同视图,例如,对同一行数据进行不同的数据增强。负样本可以是来自不同数据点的数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于对比学习的隐私度量方法在评估合成数据集的隐私风险方面表现良好,与不使用对比学习嵌入的方法相比,能够更准确地识别出存在隐私泄露风险的合成数据集。此外,该方法在性能上可以与更复杂的隐私度量方法相媲美,同时具有易于实现和部署的优点。
🎯 应用场景
该研究成果可应用于医疗、金融等对数据隐私要求较高的领域。通过更准确地评估合成数据的隐私风险,可以帮助企业和机构更好地利用合成数据进行模型训练、数据共享和数据发布,同时确保用户隐私得到有效保护。该方法还有助于推动合成数据技术的普及和应用,促进数据驱动的创新。
📄 摘要(原文)
Synthetic data has garnered attention as a Privacy Enhancing Technology (PET) in sectors such as healthcare and finance. When using synthetic data in practical applications, it is important to provide protection guarantees. In the literature, two family of approaches are proposed for tabular data: on the one hand, Similarity-based methods aim at finding the level of similarity between training and synthetic data. Indeed, a privacy breach can occur if the generated data is consistently too similar or even identical to the train data. On the other hand, Attack-based methods conduce deliberate attacks on synthetic datasets. The success rates of these attacks reveal how secure the synthetic datasets are. In this paper, we introduce a contrastive method that improves privacy assessment of synthetic datasets by embedding the data in a more representative space. This overcomes obstacles surrounding the multitude of data types and attributes. It also makes the use of intuitive distance metrics possible for similarity measurements and as an attack vector. In a series of experiments with publicly available datasets, we compare the performances of similarity-based and attack-based methods, both with and without use of the contrastive learning-based embeddings. Our results show that relatively efficient, easy to implement privacy metrics can perform equally well as more advanced metrics explicitly modeling conditions for privacy referred to by the GDPR.