Inference-Time Decontamination: Reusing Leaked Benchmarks for Large Language Model Evaluation

📄 arXiv: 2406.13990v2 📥 PDF

作者: Qin Zhu, Qingyuan Cheng, Runyu Peng, Xiaonan Li, Tengxiao Liu, Ru Peng, Xipeng Qiu, Xuanjing Huang

分类: cs.CL

发布日期: 2024-06-20 (更新: 2024-06-23)


💡 一句话要点

提出推理时去污方法ITD,解决大语言模型benchmark泄露导致的性能虚高问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型评估 benchmark泄露 数据污染 推理时去污 性能评估 模型泛化能力 样本重写

📋 核心要点

  1. 现有大语言模型benchmark存在泄露问题,导致模型在benchmark上的性能虚高,无法真实反映模型能力。
  2. 论文提出推理时去污方法ITD,通过检测并重写泄露样本,在不改变样本难度的情况下,降低模型对泄露数据的记忆效应。
  3. 实验结果表明,ITD能有效降低模型在GSM8K和MMLU等benchmark上的虚高准确率,提供更真实的性能评估。

📝 摘要(中文)

大型语言模型(LLM)的训练过程通常涉及不同程度的测试数据污染。尽管目前的LLM在各种benchmark上取得了越来越好的性能,但它们在实际应用中的表现并不总是与其benchmark结果相符。Benchmark的泄露会妨碍对LLM真实性能的准确评估。然而,构建新的benchmark成本高昂、劳动密集,并且仍然存在泄露的风险。因此,本文提出了一个问题:我们是否可以重用这些泄露的benchmark来评估LLM?我们提出了推理时去污(Inference-Time Decontamination,ITD)来解决这个问题,通过检测和重写泄露的样本而不改变其难度。ITD可以减轻因记忆泄露的benchmark而导致的性能膨胀。概念验证实验表明,ITD在GSM8K上降低了22.9%的虚高准确率,在MMLU上降低了19.0%。在MMLU上,使用推理时去污可以导致Phi3和Mistral的结果分别下降6.7%和3.6%。我们希望ITD能够为大型语言模型提供更真实的评估结果。

🔬 方法详解

问题定义:大语言模型在训练过程中可能接触到benchmark数据集,导致模型在这些数据集上表现出虚高的性能。这种“数据污染”使得benchmark无法准确评估模型的泛化能力。现有方法主要集中于构建新的benchmark,但成本高昂且无法完全避免泄露风险。因此,需要一种方法来重用已泄露的benchmark,同时消除数据污染的影响。

核心思路:论文的核心思路是在推理阶段对泄露的benchmark样本进行“去污”,即检测并重写这些样本,使得模型无法直接从记忆中提取答案,而是需要进行真正的推理。关键在于,重写后的样本需要保持原有的难度,以确保评估的有效性。

技术框架:ITD包含两个主要阶段:检测阶段和重写阶段。在检测阶段,利用模型对benchmark样本的预测结果进行分析,判断样本是否被泄露。在重写阶段,对被判定为泄露的样本进行改写,生成新的、但难度相似的样本。整个过程在推理时进行,无需重新训练模型。

关键创新:ITD的关键创新在于其“推理时”的特性,以及在重写样本时保持难度不变的能力。与以往依赖于构建全新benchmark的方法不同,ITD充分利用了已有的、但被污染的benchmark,降低了评估成本。同时,通过巧妙的样本重写策略,确保了评估的有效性。

关键设计:具体的检测和重写方法可能依赖于不同的任务类型。例如,对于数学问题,可以修改问题中的数字或条件,但保持问题的逻辑结构不变。对于文本分类问题,可以替换关键词或调整句子结构,但保持文本的主题和情感倾向不变。关键在于设计合适的重写策略,以确保重写后的样本与原始样本具有相似的难度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ITD能够有效降低大语言模型在泄露benchmark上的性能虚高。在GSM8K上,ITD降低了22.9%的虚高准确率,在MMLU上降低了19.0%。在MMLU上,使用ITD后,Phi3和Mistral的性能分别下降了6.7%和3.6%,表明ITD能够更真实地反映模型的实际能力。

🎯 应用场景

ITD可应用于大语言模型的benchmark评估,尤其是在benchmark存在泄露风险的情况下。通过ITD,可以获得更真实的模型性能评估结果,避免因数据污染导致的性能虚高。这有助于更好地了解模型的实际能力,并指导模型的改进和优化。此外,ITD的思想也可以推广到其他机器学习模型的评估中。

📄 摘要(原文)

The training process of large language models (LLMs) often involves varying degrees of test data contamination. Although current LLMs are achieving increasingly better performance on various benchmarks, their performance in practical applications does not always match their benchmark results. Leakage of benchmarks can prevent the accurate assessment of LLMs' true performance. However, constructing new benchmarks is costly, labor-intensive and still carries the risk of leakage. Therefore, in this paper, we ask the question, Can we reuse these leaked benchmarks for LLM evaluation? We propose Inference-Time Decontamination (ITD) to address this issue by detecting and rewriting leaked samples without altering their difficulties. ITD can mitigate performance inflation caused by memorizing leaked benchmarks. Our proof-of-concept experiments demonstrate that ITD reduces inflated accuracy by 22.9% on GSM8K and 19.0% on MMLU. On MMLU, using Inference-time Decontamination can lead to a decrease in the results of Phi3 and Mistral by 6.7% and 3.6% respectively. We hope that ITD can provide more truthful evaluation results for large language models.