LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks

作者: Xin Zhou, Martin Weyssow, Ratnadira Widyasari, Ting Zhang, Junda He, Yunbo Lyu, Jianming Chang, Beiqi Zhang, Dan Huang, David Lo

分类: cs.SE, cs.AI, cs.CL

发布日期: 2025-02-10

备注: 25 pages

💡 一句话要点

LessLeak-Bench：首次大规模评估LLM在软件工程基准测试中的数据泄露问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据泄露 软件工程 基准测试 代码生成 程序修复 LLM评估 LessLeak-Bench

📋 核心要点

现有LLM在软件工程任务中应用广泛，但其预训练数据可能包含评估基准数据，导致数据泄露，影响评估的有效性。
论文提出大规模分析方法，评估83个软件工程基准测试中的数据泄露情况，并分析泄露原因。
实验结果表明，总体数据泄露程度较低，但部分基准测试存在较高泄露率，并构建了LessLeak-Bench以解决该问题。

📝 摘要（中文）

大型语言模型（LLM）广泛应用于软件工程（SE）任务，如代码生成和自动程序修复。然而，它们对大量且通常未公开的预训练数据集的依赖，引发了关于数据泄露的重大担忧，即评估基准数据在模型构建阶段被LLM无意中“看到”。数据泄露问题可能会严重损害基于LLM的研究和评估的有效性。尽管LLM在SE领域的使用日益增多，但尚未有全面的研究评估LLM在SE基准测试中的数据泄露程度。为了弥补这一空白，本文首次对83个与LLM相关的SE基准测试中的数据泄露进行了大规模分析。我们的结果表明，总体而言，SE基准测试中的数据泄露程度很小，Python、Java和C/C++基准测试的平均泄露率分别仅为4.8%、2.8%和0.7%。然而，一些基准测试表现出相对较高的泄露率，这引发了对其评估偏差的担忧。例如，QuixBugs和BigCloneBench的泄露率分别为100.0%和55.7%。此外，我们观察到数据泄露对LLM评估有重大影响。我们还确定了高数据泄露的关键原因，例如预训练数据集中直接包含基准数据，以及使用LeetCode等编码平台进行基准测试构建。为了解决数据泄露问题，我们引入了 extbf{LessLeak-Bench}，这是一个新的基准测试，它从83个SE基准测试中删除了泄露的样本，从而能够在未来的研究中进行更可靠的LLM评估。我们的研究增强了对SE基准测试中数据泄露的理解，并为未来涉及LLM的SE研究提供了有价值的见解。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）在软件工程（SE）领域应用时，由于预训练数据集可能包含评估基准数据而导致的数据泄露问题。现有方法缺乏对SE基准测试中数据泄露程度的全面评估，这使得基于LLM的评估结果可能存在偏差，无法真实反映模型的性能。

核心思路：论文的核心思路是通过大规模分析现有SE基准测试的数据，识别其中可能存在的数据泄露情况，并量化泄露程度。通过分析泄露原因，为构建更可靠的基准测试提供指导。同时，构建新的基准测试集LessLeak-Bench，移除泄露样本，从而实现更公平、更准确的LLM评估。

技术框架：论文的技术框架主要包括以下几个阶段：1) 数据收集：收集83个SE基准测试的数据。2) 泄露检测：设计算法或方法，检测基准测试数据是否出现在LLM的预训练数据集中。3) 泄露量化：计算每个基准测试的泄露率，即泄露样本占总样本的比例。4) 原因分析：分析导致高泄露率的原因，例如直接包含或间接包含。5) 基准构建：构建LessLeak-Bench，移除泄露样本。

关键创新：论文的关键创新在于：1) 首次对大规模SE基准测试中的数据泄露问题进行了系统性的分析和量化。2) 提出了LessLeak-Bench，这是一个经过清洗的、无泄露的基准测试集，可以用于更可靠地评估LLM在SE任务中的性能。3) 深入分析了导致数据泄露的根本原因，为未来构建更安全的基准测试提供了指导。与现有方法相比，该研究更全面、更深入，并提供了实际可用的解决方案。

关键设计：论文的关键设计包括：1) 泄露检测算法的选择：具体采用何种算法检测泄露，例如基于字符串匹配、语义相似度等。2) 泄露率的计算方法：如何准确计算泄露样本的比例。3) LessLeak-Bench的构建策略：如何有效地移除泄露样本，并保证基准测试的代表性。4) 预训练数据集的选取：需要明确针对哪些预训练数据集进行泄露检测。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SE基准测试中总体数据泄露程度较低，但QuixBugs和BigCloneBench等基准测试的泄露率分别高达100.0%和55.7%。数据泄露对LLM评估有显著影响。LessLeak-Bench的构建为更可靠的LLM评估提供了基础。

🎯 应用场景

该研究成果可应用于软件工程领域中LLM的评估与选择，帮助研究人员和开发者更准确地评估LLM在代码生成、程序修复等任务中的性能。LessLeak-Bench基准测试集可作为未来研究的标准评估平台，促进LLM在软件工程领域的可靠应用和发展。该研究也为其他领域LLM的基准测试构建提供了参考。

📄 摘要（原文）

Large Language Models (LLMs) are widely utilized in software engineering (SE) tasks, such as code generation and automated program repair. However, their reliance on extensive and often undisclosed pre-training datasets raises significant concerns about data leakage, where the evaluation benchmark data is unintentionally ``seen'' by LLMs during the model's construction phase. The data leakage issue could largely undermine the validity of LLM-based research and evaluations. Despite the increasing use of LLMs in the SE community, there is no comprehensive study that assesses the extent of data leakage in SE benchmarks for LLMs yet. To address this gap, this paper presents the first large-scale analysis of data leakage in 83 SE benchmarks concerning LLMs. Our results show that in general, data leakage in SE benchmarks is minimal, with average leakage ratios of only 4.8\%, 2.8\%, and 0.7\% for Python, Java, and C/C++ benchmarks, respectively. However, some benchmarks exhibit relatively higher leakage ratios, which raises concerns about their bias in evaluation. For instance, QuixBugs and BigCloneBench have leakage ratios of 100.0\% and 55.7\%, respectively. Furthermore, we observe that data leakage has a substantial impact on LLM evaluation. We also identify key causes of high data leakage, such as the direct inclusion of benchmark data in pre-training datasets and the use of coding platforms like LeetCode for benchmark construction. To address the data leakage, we introduce \textbf{LessLeak-Bench}, a new benchmark that removes leaked samples from the 83 SE benchmarks, enabling more reliable LLM evaluations in future research. Our study enhances the understanding of data leakage in SE benchmarks and provides valuable insights for future research involving LLMs in SE.

LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理