Tab-MIA: A Benchmark Dataset for Membership Inference Attacks on Tabular Data in LLMs
作者: Eyal German, Sagiv Antebi, Daniel Samira, Asaf Shabtai, Yuval Elovici
分类: cs.CR, cs.CL
发布日期: 2025-07-23
💡 一句话要点
Tab-MIA:用于评估LLM在表格数据上成员推断攻击的基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 成员推断攻击 表格数据 大型语言模型 隐私保护 基准数据集
📋 核心要点
- 现有成员推断攻击(MIA)方法主要针对文本数据,在表格数据上的有效性和威胁程度尚不明确,存在隐私泄露风险。
- 论文提出Tab-MIA基准数据集,包含多种表格数据和编码格式,用于系统评估LLM在表格数据上的MIA风险。
- 实验结果表明,LLM在表格数据上存在记忆行为,且易受MIA攻击,即使少量epoch的微调也会导致高风险。
📝 摘要(中文)
大型语言模型(LLM)越来越多地在表格数据上进行训练,与非结构化文本不同,表格数据通常以高度结构化和显式的格式包含个人身份信息(PII)。因此,会产生隐私风险,因为敏感记录可能被模型无意中保留,并通过数据提取或成员推断攻击(MIA)暴露。虽然现有的MIA方法主要针对文本内容,但当应用于结构化数据时,由于其有限的内容、多样的数据类型、独特的数值分布和列级语义,它们的有效性和威胁影响可能会有所不同。在本文中,我们提出了Tab-MIA,一个用于评估LLM在表格数据上MIA的基准数据集,并展示了如何使用它。Tab-MIA包含五个数据集合,每个集合以六种不同的编码格式表示。我们使用Tab-MIA基准,对在表格数据上微调的LLM进行最先进的MIA方法的首次评估,涵盖多种编码格式。在评估中,我们分析了预训练LLM在源自维基百科表格的结构化数据上的记忆行为。我们的研究结果表明,LLM以不同编码格式记忆表格数据的方式各不相同,这使得它们容易受到通过MIA进行的提取。即使经过少至三个epoch的微调,模型也表现出很高的脆弱性,在大多数情况下,AUROC分数接近90%。Tab-MIA能够系统地评估这些风险,并为开发用于LLM中表格数据的隐私保护方法奠定基础。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在表格数据上训练时,由于表格数据包含大量个人身份信息(PII),容易受到成员推断攻击(MIA)的问题。现有MIA方法主要针对文本数据,无法有效评估LLM在表格数据上的隐私风险,缺乏相应的基准数据集。
核心思路:论文的核心思路是构建一个专门用于评估LLM在表格数据上MIA风险的基准数据集Tab-MIA。通过在不同编码格式的表格数据上训练LLM,并使用MIA方法进行攻击,从而评估LLM的记忆行为和隐私泄露风险。这样可以系统地分析不同编码方式对MIA的影响,并为开发隐私保护方法提供基础。
技术框架:Tab-MIA基准数据集包含五个数据集合,每个集合以六种不同的编码格式表示。研究人员使用这些数据集对预训练的LLM进行微调,然后使用现有的MIA方法评估模型是否记住了训练数据中的特定记录。评估指标主要包括AUROC。
关键创新:该论文的主要创新在于构建了Tab-MIA基准数据集,这是首个专门用于评估LLM在表格数据上MIA风险的数据集。该数据集包含多种表格数据和编码格式,可以更全面地评估LLM的隐私风险。此外,论文还首次评估了现有MIA方法在表格数据上的有效性,并分析了不同编码方式对MIA的影响。
关键设计:Tab-MIA数据集包含五个不同的表格数据集,并对每个数据集应用六种不同的编码格式,以模拟不同的数据表示方式。实验中,研究人员使用预训练的LLM(具体模型未知)在这些数据集上进行微调,并使用现有的MIA方法(具体方法未知)进行攻击。AUROC被用作评估MIA攻击成功率的指标。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在表格数据上存在显著的记忆行为,即使经过少量epoch的微调,模型也容易受到MIA攻击,AUROC分数在大多数情况下接近90%。不同编码格式对MIA的攻击效果有显著影响,表明数据表示方式是影响LLM隐私风险的重要因素。Tab-MIA为系统评估LLM在表格数据上的隐私风险提供了有效工具。
🎯 应用场景
该研究成果可应用于评估和改进LLM在处理包含敏感信息的表格数据时的隐私保护能力。通过使用Tab-MIA基准数据集,可以系统地评估不同模型和训练策略的隐私风险,并开发更有效的隐私保护技术,例如差分隐私或对抗训练,从而降低数据泄露的风险。
📄 摘要(原文)
Large language models (LLMs) are increasingly trained on tabular data, which, unlike unstructured text, often contains personally identifiable information (PII) in a highly structured and explicit format. As a result, privacy risks arise, since sensitive records can be inadvertently retained by the model and exposed through data extraction or membership inference attacks (MIAs). While existing MIA methods primarily target textual content, their efficacy and threat implications may differ when applied to structured data, due to its limited content, diverse data types, unique value distributions, and column-level semantics. In this paper, we present Tab-MIA, a benchmark dataset for evaluating MIAs on tabular data in LLMs and demonstrate how it can be used. Tab-MIA comprises five data collections, each represented in six different encoding formats. Using our Tab-MIA benchmark, we conduct the first evaluation of state-of-the-art MIA methods on LLMs finetuned with tabular data across multiple encoding formats. In the evaluation, we analyze the memorization behavior of pretrained LLMs on structured data derived from Wikipedia tables. Our findings show that LLMs memorize tabular data in ways that vary across encoding formats, making them susceptible to extraction via MIAs. Even when fine-tuned for as few as three epochs, models exhibit high vulnerability, with AUROC scores approaching 90% in most cases. Tab-MIA enables systematic evaluation of these risks and provides a foundation for developing privacy-preserving methods for tabular data in LLMs.