Min-K%++: Improved Baseline for Detecting Pre-Training Data from Large Language Models

📄 arXiv: 2404.02936v4 📥 PDF

作者: Jingyang Zhang, Jingwei Sun, Eric Yeats, Yang Ouyang, Martin Kuo, Jianyi Zhang, Hao Frank Yang, Hai Li

分类: cs.CL, cs.LG

发布日期: 2024-04-03 (更新: 2025-02-12)

备注: ICLR'25 Spotlight. Project page and code is available at https://zjysteven.github.io/mink-plus-plus/


💡 一句话要点

提出Min-K%++以解决大语言模型预训练数据检测问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 预训练数据检测 大语言模型 局部极大值 最大似然训练 数据安全 版权保护

📋 核心要点

  1. 现有的预训练数据检测方法多基于简单启发式,缺乏理论支持,导致性能提升有限。
  2. 本文提出的Min-K%++方法通过识别局部极大值来解决预训练数据检测问题,具有理论基础。
  3. 在WikiMIA基准上,Min-K%++在检测AUROC上超越了第二名6.2%至10.5%,在MIMIR基准上表现优异。

📝 摘要(中文)

大语言模型(LLMs)预训练数据检测问题因其在版权侵犯和测试数据污染等关键问题上的影响而受到越来越多的关注。尽管现有方法(包括最先进的Min-K%)在性能上有所提升,但大多基于简单的启发式方法,缺乏扎实的理论基础。本文提出了一种新颖且具有理论动机的预训练数据检测方法Min-K%++,其核心思想是通过最大似然训练,识别训练样本在每个输入维度上的局部极大值,从而将问题转化为局部极大值的识别。实验证明,该方法在多个设置下达到了新的SOTA性能。

🔬 方法详解

问题定义:本文旨在解决大语言模型预训练数据检测的问题。现有方法多基于启发式,缺乏理论基础,导致检测性能不稳定。

核心思路:Min-K%++方法的核心思路是通过最大似然训练识别训练样本在输入维度上的局部极大值,从而将检测问题转化为局部极大值的识别。

技术框架:该方法在离散分布下工作,主要包括数据预处理、局部极大值识别和概率评估三个模块。

关键创新:Min-K%++的主要创新在于将预训练数据检测问题转化为局部极大值的识别,与现有方法相比,提供了更为扎实的理论基础。

关键设计:该方法在设计上采用了条件分类分布来评估输入的概率,并设置了相应的损失函数以优化模型性能。具体的参数设置和网络结构细节在实验部分进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,Min-K%++在WikiMIA基准上实现了新的SOTA性能,检测AUROC提升幅度在6.2%至10.5%之间。此外,在更具挑战性的MIMIR基准上,该方法在无参考方法中表现出色,并与需要额外参考模型的有参考方法相当。

🎯 应用场景

该研究的潜在应用领域包括版权保护、数据安全和模型训练的透明性等。通过有效检测预训练数据,能够帮助开发者避免版权问题和数据污染,从而提升模型的可靠性和合法性。未来,该方法有望在更多领域得到应用,推动相关技术的发展。

📄 摘要(原文)

The problem of pre-training data detection for large language models (LLMs) has received growing attention due to its implications in critical issues like copyright violation and test data contamination. Despite improved performance, existing methods (including the state-of-the-art, Min-K%) are mostly developed upon simple heuristics and lack solid, reasonable foundations. In this work, we propose a novel and theoretically motivated methodology for pre-training data detection, named Min-K%++. Specifically, we present a key insight that training samples tend to be local maxima of the modeled distribution along each input dimension through maximum likelihood training, which in turn allow us to insightfully translate the problem into identification of local maxima. Then, we design our method accordingly that works under the discrete distribution modeled by LLMs, whose core idea is to determine whether the input forms a mode or has relatively high probability under the conditional categorical distribution. Empirically, the proposed method achieves new SOTA performance across multiple settings. On the WikiMIA benchmark, Min-K%++ outperforms the runner-up by 6.2% to 10.5% in detection AUROC averaged over five models. On the more challenging MIMIR benchmark, it consistently improves upon reference-free methods while performing on par with reference-based method that requires an extra reference model.