Training on the Benchmark Is Not All You Need

📄 arXiv: 2409.01790v2 📥 PDF

作者: Shiwen Ni, Xiangtao Kong, Chengming Li, Xiping Hu, Ruifeng Xu, Jia Zhu, Min Yang

分类: cs.CL, cs.AI

发布日期: 2024-09-03 (更新: 2025-02-28)

期刊: AAAI 2025


💡 一句话要点

提出基于选项洗牌的数据泄露检测方法,评估LLM在基准测试中的数据泄露程度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据泄露检测 基准测试 灰盒测试 选项洗牌

📋 核心要点

  1. 大型语言模型依赖大量预训练数据,但预训练数据的不透明性使得基准测试结果的可靠性受到质疑。
  2. 该论文提出一种基于多项选择题选项洗牌的数据泄露检测方法,通过分析模型在洗牌数据集上的对数概率分布来识别泄露。
  3. 实验证明该方法能有效检测数据泄露,并评估了35个开源LLM在多个基准测试中的泄露程度,发现Qwen系列泄露程度较高。

📝 摘要(中文)

大型语言模型(LLM)的成功很大程度上依赖于预训练阶段学习的大量预训练数据。预训练过程和训练数据的不透明性导致许多基准测试的结果变得不可靠。如果任何模型在基准测试集上进行过训练,都会严重阻碍该领域的健康发展。为了自动有效地测试大型语言模型的能力,许多主流基准测试采用多项选择题形式。由于交换多项选择题选项的内容不影响问题本身的含义,因此我们提出了一种基于此属性的简单有效的数据泄露检测方法。具体来说,我们通过洗牌数据中的选项内容来生成相应的派生数据集,然后基于模型在派生数据集上的对数概率分布来检测数据泄露。如果对数概率集合中存在最大值和异常值,则表明存在数据泄露。我们的方法能够在无法访问模型训练数据或权重的情况下在灰盒条件下工作,有效地识别模型预训练数据中来自基准测试集的数据泄露,包括正常情况和选项可能被有意或无意洗牌的复杂情况。通过基于两个LLM和基准设计的实验,我们证明了我们方法的有效性。此外,我们评估了35个主流开源LLM在四个基准数据集上的数据泄露程度,并给出了每个基准的泄露LLM排名,我们发现Qwen系列LLM的数据泄露程度最高。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在基准测试中可能存在的数据泄露问题。现有方法难以在无法访问模型训练数据或权重的情况下,有效检测模型是否在预训练阶段接触过基准测试数据,从而影响基准测试的公正性和可靠性。现有方法缺乏一种简单有效的灰盒检测机制,难以应对选项可能被有意或无意洗牌的复杂情况。

核心思路:论文的核心思路是利用多项选择题的特性,即交换选项内容不影响问题本身含义。通过对基准测试数据集的选项进行洗牌,生成派生数据集。如果模型在原始数据集上表现出显著优于洗牌数据集的性能(通过对数概率分布体现),则表明模型可能在预训练阶段接触过原始数据集,存在数据泄露。

技术框架:该方法主要包含以下几个阶段:1) 数据准备:针对多项选择题基准测试数据集,生成选项洗牌后的派生数据集。2) 概率计算:利用待测LLM,分别计算其在原始数据集和派生数据集上的对数概率分布。3) 泄露检测:分析对数概率分布,如果原始数据集的对数概率存在显著的最大值和异常值,则判定存在数据泄露。

关键创新:该方法最重要的创新点在于其简单性和有效性。它无需访问模型的训练数据或权重,即可在灰盒条件下检测数据泄露。此外,该方法能够应对选项可能被有意或无意洗牌的复杂情况,提高了检测的鲁棒性。与现有方法相比,该方法更加轻量级,易于实施,且具有更强的通用性。

关键设计:关键设计在于对数概率分布的分析方法。论文通过统计分析原始数据集和派生数据集的对数概率分布,识别是否存在显著的最大值和异常值。具体的统计方法(如阈值设定、异常值检测算法等)可能需要根据具体数据集和模型进行调整。此外,选项洗牌的具体策略(如随机洗牌、特定规则洗牌等)也可能影响检测效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过实验验证了所提出方法的有效性,能够准确识别LLM在基准测试中的数据泄露。实验结果表明,Qwen系列LLM在多个基准测试中表现出较高的数据泄露程度。该研究为评估LLM的基准测试可靠性提供了一种新的有效工具。

🎯 应用场景

该研究成果可应用于评估大型语言模型在各种基准测试中的数据泄露风险,确保基准测试的公正性和可靠性。这有助于推动LLM的公平发展,避免模型过度拟合特定数据集。此外,该方法还可用于检测其他类型的数据泄露问题,例如在模型微调阶段是否存在对测试数据的过度利用。

📄 摘要(原文)

The success of Large Language Models (LLMs) relies heavily on the huge amount of pre-training data learned in the pre-training phase. The opacity of the pre-training process and the training data causes the results of many benchmark tests to become unreliable. If any model has been trained on a benchmark test set, it can seriously hinder the health of the field. In order to automate and efficiently test the capabilities of large language models, numerous mainstream benchmarks adopt a multiple-choice format. As the swapping of the contents of multiple-choice options does not affect the meaning of the question itself, we propose a simple and effective data leakage detection method based on this property. Specifically, we shuffle the contents of the options in the data to generate the corresponding derived data sets, and then detect data leakage based on the model's log probability distribution over the derived data sets. If there is a maximum and outlier in the set of log probabilities, it indicates that the data is leaked. Our method is able to work under gray-box conditions without access to model training data or weights, effectively identifying data leakage from benchmark test sets in model pre-training data, including both normal scenarios and complex scenarios where options may have been shuffled intentionally or unintentionally. Through experiments based on two LLMs and benchmark designs, we demonstrate the effectiveness of our method. In addition, we evaluate the degree of data leakage of 35 mainstream open-source LLMs on four benchmark datasets and give a ranking of the leaked LLMs for each benchmark, and we find that the Qwen family of LLMs has the highest degree of data leakage.