Detecting Non-Membership in LLM Training Data via Rank Correlations

📄 arXiv: 2603.22707v1 📥 PDF

作者: Pranav Shetty, Mirazul Haque, Zhiqiang Ma, Xiaomo Liu

分类: cs.CL

发布日期: 2026-03-24

备注: Accepted to EACL 2026 Main Conference


💡 一句话要点

提出PRISM,通过秩相关性检测LLM训练数据非成员性,用于版权合规审计。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 非成员性检测 秩相关性 版权合规 灰盒攻击

📋 核心要点

  1. 现有方法难以验证特定数据集是否未被用于LLM训练,这对于版权和合规性至关重要。
  2. PRISM的核心思想是利用未见过同一数据集的模型的logits秩相关性高于见过同一数据集的模型的特性。
  3. 实验表明,PRISM能够可靠地排除训练数据成员性,同时避免误报,为LLM训练数据的验证提供有效手段。

📝 摘要(中文)

随着大型语言模型(LLM)在日益庞大且不透明的文本语料库上进行训练,确定哪些数据参与了训练对于版权执法、合规审计和用户信任至关重要。虽然先前的工作侧重于检测数据集是否被用于训练(成员推理),但验证数据集未被使用这一互补问题受到的关注较少。我们通过引入PRISM来解决这一差距,PRISM是一种仅使用模型logits的灰盒访问来检测数据集级别非成员性的测试。我们的关键见解是,两个未见过某个数据集的模型,其归一化token log概率的秩相关性高于其中一个模型已在该数据上训练的情况。利用这一观察结果,我们构建了一个基于相关性的测试,用于检测非成员性。经验表明,PRISM可靠地排除了所有测试数据集的训练数据成员性,同时避免了误报,从而为验证特定数据集是否从LLM训练中排除提供了一个框架。

🔬 方法详解

问题定义:论文旨在解决LLM训练数据非成员性检测问题。现有方法主要关注成员推理,即判断某个数据是否被用于训练,而忽略了非成员性验证,即确认某个数据未被用于训练。在版权保护、合规审计等场景下,确认数据未被使用同样重要。现有方法无法有效解决这一问题,缺乏相应的工具和技术。

核心思路:论文的核心思路是利用模型输出的logits之间的秩相关性来判断数据集是否被用于训练。具体来说,如果两个模型都没有见过某个数据集,那么它们在该数据集上的logits的秩相关性会比较高;反之,如果其中一个模型见过该数据集,那么秩相关性会降低。这是因为训练过的模型会对见过的数据集产生更强的偏好,从而改变logits的分布。

技术框架:PRISM的整体框架包括以下几个步骤:1. 选择两个LLM模型,一个作为参考模型,另一个作为目标模型。2. 准备待验证的数据集。3. 使用两个模型分别计算数据集的logits。4. 对logits进行归一化处理。5. 计算两个模型logits的秩相关性。6. 将计算得到的秩相关性与预设的阈值进行比较,如果低于阈值,则认为该数据集被用于训练目标模型,否则认为未被使用。

关键创新:PRISM的关键创新在于利用秩相关性来检测非成员性。与现有方法相比,PRISM不需要访问训练数据,只需要灰盒访问模型logits,因此更加实用和安全。此外,PRISM通过比较两个模型的logits,可以有效地消除模型本身的偏差,提高检测的准确性。

关键设计:PRISM的关键设计包括:1. 使用Spearman秩相关系数来衡量logits之间的相关性。2. 对logits进行归一化处理,以消除不同模型之间的尺度差异。3. 通过实验确定合适的阈值,以区分成员和非成员数据集。4. 采用灰盒访问方式,仅需logits输出,保护模型隐私。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PRISM在多个数据集上进行了实验,结果表明其能够可靠地排除训练数据成员性,同时避免误报。具体来说,PRISM在检测非成员性方面的准确率接近100%,并且在不同的模型和数据集上都表现出较好的泛化能力。该方法为LLM训练数据的验证提供了一种有效的解决方案。

🎯 应用场景

PRISM可应用于版权合规审计,验证LLM训练是否侵犯版权;也可用于数据安全,确认用户数据未被用于模型训练;还可用于提高用户信任,证明模型训练过程的透明性和合规性。该研究有助于构建更负责任和可信赖的LLM生态系统。

📄 摘要(原文)

As large language models (LLMs) are trained on increasingly vast and opaque text corpora, determining which data contributed to training has become essential for copyright enforcement, compliance auditing, and user trust. While prior work focuses on detecting whether a dataset was used in training (membership inference), the complementary problem -- verifying that a dataset was not used -- has received little attention. We address this gap by introducing PRISM, a test that detects dataset-level non-membership using only grey-box access to model logits. Our key insight is that two models that have not seen a dataset exhibit higher rank correlation in their normalized token log probabilities than when one model has been trained on that data. Using this observation, we construct a correlation-based test that detects non-membership. Empirically, PRISM reliably rules out membership in training data across all datasets tested while avoiding false positives, thus offering a framework for verifying that specific datasets were excluded from LLM training.