Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation
作者: Naila Shafirni Hidayat, Muhammad Dehan Al Kautsar, Alfan Farizki Wicaksono, Fajri Koto
分类: cs.CL
发布日期: 2025-05-30
💡 一句话要点
提出并评估多种数据泄露检测方法,用于提升LLM评测基准的可靠性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据泄露检测 基准评估 持续预训练 n-gram方法
📋 核心要点
- 现有LLM评测基准存在训练数据泄露风险,影响评估结果的可靠性和公平性,现有检测方法主要关注异常值,缺乏在模拟泄露场景下的充分评估。
- 论文提出在持续预训练设置下模拟真实泄露场景,比较并改进现有泄露检测技术,包括排列、n-gram以及一种轻量级方法semi-half question。
- 实验表明n-gram方法表现最佳,并据此创建了MMLU和HellaSwag的清理版本,重新评估了多个LLM,为更可靠的评估提供了实践路径。
📝 摘要(中文)
大型语言模型(LLM)的性能持续提升,这反映在标准基准测试中不断上升的分数上。然而,训练数据缺乏透明度引发了人们对评估集潜在重叠以及报告结果公平性的担忧。尽管先前的工作已经提出了检测数据泄露的方法,但这些方法主要集中在识别异常值,并且未在受控的模拟泄露条件下进行评估。本文比较了现有的泄露检测技术,即基于排列和n-gram的方法,在一个模拟真实世界泄露场景的持续预训练设置下,并额外探索了一种轻量级方法,我们称之为semi-half question。虽然semi-half提供了一种低成本的替代方案,但我们的分析表明,n-gram方法始终获得最高的F1分数。我们还改进了这些技术,以支持实例级别的检测并减少计算开销。利用性能最佳的方法,我们创建了MMLU和HellaSwag的清理版本,并重新评估了几个LLM。我们的发现为更可靠和透明的评估提供了一条切实可行的途径,我们建议将污染检查作为发布基准结果之前的标准步骤。
🔬 方法详解
问题定义:论文旨在解决LLM评估基准中训练数据泄露的问题。现有方法,如基于异常值检测的方法,无法有效应对真实场景下的数据泄露,并且缺乏在模拟泄露环境下的充分验证。这导致LLM在基准测试中的表现可能被高估,无法真实反映其泛化能力。
核心思路:论文的核心思路是在受控的模拟泄露条件下,比较和评估现有的数据泄露检测技术,并提出改进方案。通过模拟LLM在训练过程中接触到评估数据的情况,可以更真实地评估各种检测方法的有效性。同时,论文还探索了一种轻量级的检测方法,以降低计算成本。
技术框架:论文的技术框架主要包括以下几个阶段:1) 模拟数据泄露:通过持续预训练的方式,使LLM在训练过程中接触到部分评估数据。2) 泄露检测:应用多种泄露检测方法(排列、n-gram、semi-half question)检测训练数据中是否存在与评估数据相似的样本。3) 性能评估:比较不同检测方法的F1分数,评估其检测效果。4) 基准清理与重评估:利用性能最佳的检测方法,清理MMLU和HellaSwag数据集,并重新评估LLM的性能。
关键创新:论文的关键创新在于:1) 在受控的模拟泄露条件下评估数据泄露检测方法,更贴近真实场景。2) 提出了一种轻量级的泄露检测方法semi-half question,虽然效果不如n-gram,但提供了一种低成本的替代方案。3) 改进了现有检测技术,支持实例级别的检测,并降低了计算开销。
关键设计:论文的关键设计包括:1) 使用持续预训练模拟数据泄露,控制泄露程度。2) 采用F1分数作为评估指标,综合考虑检测的准确率和召回率。3) 对n-gram方法进行优化,例如调整n-gram的长度,以提高检测效果。4) Semi-half question方法通过比较问题的前半部分和后半部分,判断是否存在泄露,降低了计算复杂度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,n-gram方法在模拟泄露场景下始终获得最高的F1分数,优于排列方法和semi-half question方法。基于n-gram方法清理后的MMLU和HellaSwag数据集,可以更准确地评估LLM的真实性能。该研究为LLM评测基准的可靠性提升提供了有力支持。
🎯 应用场景
该研究成果可应用于LLM评测基准的构建和维护,确保评估结果的可靠性和公平性。通过标准化的数据泄露检测流程,可以有效避免LLM在训练过程中接触到评估数据,从而更真实地反映其泛化能力。此外,该方法也可用于检测其他机器学习模型的训练数据泄露问题。
📄 摘要(原文)
The performance of large language models (LLMs) continues to improve, as reflected in rising scores on standard benchmarks. However, the lack of transparency around training data raises concerns about potential overlap with evaluation sets and the fairness of reported results. Although prior work has proposed methods for detecting data leakage, these approaches primarily focus on identifying outliers and have not been evaluated under controlled simulated leakage conditions. In this work, we compare existing leakage detection techniques, namely permutation and n-gram-based methods, under a continual pretraining setup that simulates real-world leakage scenarios, and additionally explore a lightweight method we call semi-half question. Although semi-half offers a low-cost alternative, our analysis shows that the n-gram method consistently achieves the highest F1-score. We also refine these techniques to support instance-level detection and reduce computational overhead. Leveraging the best-performing method, we create cleaned versions of MMLU and HellaSwag, and re-evaluate several LLMs. Our findings present a practical path toward more reliable and transparent evaluations, and we recommend contamination checks as a standard step before releasing benchmark results.