Detecting Data Contamination in Large Language Models

作者: Juliusz Janicki, Savvas Chamezopoulos, Evangelos Kanoulas, Georgios Tsatsaronis

分类: cs.AI

发布日期: 2026-04-21

💡 一句话要点

评估黑盒成员推理攻击在大型语言模型数据污染检测中的可靠性

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 成员推理攻击 数据污染检测 黑盒攻击 模型安全

📋 核心要点

现有黑盒成员推理攻击（MIA）方法需要大量数据操作，缺乏统一的评估标准，难以有效比较。
论文提出一种名为“熟悉度排序”的新型黑盒MIA方法，旨在提升LLM推理过程的可解释性。
实验结果表明，现有黑盒MIA方法难以可靠检测LLM训练数据中的成员关系，AUC-ROC接近0.5。

📝 摘要（中文）

大型语言模型（LLMs）的训练依赖于海量数据，其中部分数据可能来自受版权保护的来源。成员推理攻击（MIA）旨在检测这些文档及其是否被包含在LLMs的训练语料库中。黑盒MIA需要大量的数据操作，这使得它们的比较具有挑战性。本文研究了黑盒假设下的最先进（SOTA）MIA，并使用统一的数据集对它们进行比较，以确定它们是否能够可靠地检测SOTA LLMs中的成员关系。此外，开发了一种名为“熟悉度排序”的新方法，以展示黑盒MIA的一种可能方法，从而使LLMs在表达方面有更大的自由，以更好地理解它们的推理。结果表明，所有方法都无法可靠地检测LLMs中的成员关系，所有方法在多个LLMs上的AUC-ROC约为0.5。更先进的LLMs具有更高的TPR和FPR，表明其具有更高的推理和泛化能力，这表明使用黑盒MIA检测LLMs中的成员关系非常困难。

🔬 方法详解

问题定义：论文旨在评估现有黑盒成员推理攻击（MIA）方法在检测大型语言模型（LLM）训练数据污染方面的有效性。现有黑盒MIA方法需要大量数据操作，且缺乏统一的评估标准，导致难以有效比较不同方法的性能。此外，现有方法对LLM的推理过程缺乏足够的解释性。

核心思路：论文的核心思路是通过统一的评估数据集，对现有最先进的黑盒MIA方法进行系统性比较，从而确定其在检测LLM训练数据成员关系方面的可靠性。同时，提出一种新的黑盒MIA方法“熟悉度排序”，旨在提升LLM推理过程的可解释性，并为未来的黑盒MIA研究提供新的思路。

技术框架：论文的技术框架主要包括以下几个阶段：1) 收集和构建统一的评估数据集；2) 选择并实现现有最先进的黑盒MIA方法；3) 提出并实现新的黑盒MIA方法“熟悉度排序”；4) 在统一的评估数据集上对所有方法进行评估和比较；5) 分析实验结果，得出结论。

关键创新：论文的关键创新点在于：1) 对现有黑盒MIA方法进行了系统性的评估和比较，揭示了其在检测LLM训练数据成员关系方面的局限性；2) 提出了新的黑盒MIA方法“熟悉度排序”，旨在提升LLM推理过程的可解释性。与现有方法的本质区别在于，该方法更加注重理解LLM的推理过程，而非仅仅关注成员关系的检测结果。

关键设计：论文的关键设计包括：1) 统一的评估数据集，用于公平地比较不同MIA方法的性能；2) “熟悉度排序”方法，通过分析LLM对不同文档的“熟悉度”来推断其是否为训练数据成员；3) 使用AUC-ROC作为评估指标，衡量MIA方法的检测性能；4) 实验中使用了多个SOTA LLM，以验证结论的泛化性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有黑盒成员推理攻击方法在检测大型语言模型训练数据成员关系方面表现不佳，所有方法在多个LLMs上的AUC-ROC约为0.5。更先进的LLMs具有更高的TPR和FPR，表明其具有更高的推理和泛化能力，这进一步增加了检测成员关系的难度。该研究揭示了现有黑盒MIA方法的局限性，并为未来的研究方向提供了启示。

🎯 应用场景

该研究成果可应用于评估大型语言模型的安全性，特别是检测模型训练数据中是否存在版权侵权或恶意数据污染。通过改进成员推理攻击方法，可以更好地保护数据所有者的权益，并提高LLM的可靠性和安全性。此外，该研究对于提升LLM的可解释性具有潜在价值，有助于理解LLM的推理过程。

📄 摘要（原文）

Large Language Models (LLMs) utilize large amounts of data for their training, some of which may come from copyrighted sources. Membership Inference Attacks (MIA) aim to detect those documents and whether they have been included in the training corpora of the LLMs. The black-box MIAs require a significant amount of data manipulation; therefore, their comparison is often challenging. We study state-of-the-art (SOTA) MIAs under the black-box assumptions and compare them to each other using a unified set of datasets to determine if any of them can reliably detect membership under SOTA LLMs. In addition, a new method, called the Familiarity Ranking, was developed to showcase a possible approach to black-box MIAs, thereby giving LLMs more freedom in their expression to understand their reasoning better. The results indicate that none of the methods are capable of reliably detecting membership in LLMs, as shown by an AUC-ROC of approximately 0.5 for all methods across several LLMs. The higher TPR and FPR for more advanced LLMs indicate higher reasoning and generalizing capabilities, showcasing the difficulty of detecting membership in LLMs using black-box MIAs.

Detecting Data Contamination in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理