Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding
作者: Cheng Wang, Yiwei Wang, Bryan Hooi, Yujun Cai, Nanyun Peng, Kai-Wei Chang
分类: cs.CL
发布日期: 2024-09-05 (更新: 2025-01-15)
💡 一句话要点
Con-ReCall:通过对比解码检测LLM中的预训练数据泄露
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 成员推理 隐私安全 对比学习 预训练数据检测
📋 核心要点
- 现有成员推理方法忽略了同时考虑成员和非成员上下文的价值,无法有效利用细微的分布差异。
- Con-ReCall通过对比解码,放大了成员和非成员上下文引起的不对称分布偏移,从而提升了成员推理能力。
- 实验表明,Con-ReCall在WikiMIA基准测试中取得了SOTA性能,并对文本操作具有鲁棒性。
📝 摘要(中文)
大型语言模型(LLM)的训练数据是其成功的关键,但也带来了隐私和安全风险,因为它可能包含敏感信息。检测预训练数据对于缓解这些问题至关重要。现有方法通常孤立地分析目标文本或仅使用非成员上下文,忽略了同时考虑成员和非成员上下文的潜在价值。虽然之前的工作表明,由于成员上下文引起的分布偏移很小,因此提供的信息很少,但我们的分析表明,当与非成员上下文进行对比时,可以有效地利用这些细微的偏移。在本文中,我们提出了一种新颖的方法Con-ReCall,该方法利用成员和非成员上下文引起的不对称分布偏移,通过对比解码来放大细微的差异,从而增强成员推理。大量的实验评估表明,Con-ReCall在WikiMIA基准测试中实现了最先进的性能,并且对各种文本操作技术具有鲁棒性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中预训练数据泄露的检测问题。现有的成员推理方法主要存在以下痛点:一是孤立地分析目标文本,忽略了上下文信息;二是仅使用非成员上下文,无法有效利用成员上下文提供的细微分布信息。这些方法难以充分挖掘LLM中存在的预训练数据泄露风险。
核心思路:论文的核心思路是利用成员上下文和非成员上下文在LLM中引起的不对称分布偏移。作者认为,虽然成员上下文引起的分布偏移很小,但通过与非成员上下文进行对比,可以有效地放大这些细微的差异,从而提高成员推理的准确性。这种对比学习的思想是Con-ReCall方法的核心。
技术框架:Con-ReCall方法主要包含以下几个阶段:1) 上下文构建:为目标文本构建成员上下文和非成员上下文。2) 对比解码:使用LLM对目标文本在不同上下文下的概率分布进行解码。3) 差异放大:通过对比成员上下文和非成员上下文的概率分布,放大两者之间的差异。4) 成员推理:基于放大的差异,判断目标文本是否属于LLM的预训练数据集。
关键创新:Con-ReCall的关键创新在于其对比解码的思想。与现有方法不同,Con-ReCall不是孤立地分析目标文本或仅使用非成员上下文,而是同时考虑成员和非成员上下文,并通过对比解码来放大两者之间的差异。这种对比学习的方法能够更有效地利用LLM中存在的细微分布信息,从而提高成员推理的准确性。
关键设计:Con-ReCall的关键设计包括:1) 上下文选择策略:如何选择合适的成员上下文和非成员上下文,以最大化两者之间的差异。2) 对比解码函数:如何设计对比解码函数,以有效地放大成员上下文和非成员上下文的概率分布差异。3) 成员推理阈值:如何设置成员推理的阈值,以平衡准确率和召回率。
🖼️ 关键图片
📊 实验亮点
Con-ReCall在WikiMIA基准测试中取得了state-of-the-art的性能,显著优于现有的成员推理方法。实验结果表明,Con-ReCall能够有效地检测LLM中的预训练数据泄露,并且对各种文本操作技术具有鲁棒性。具体的性能提升数据在论文中进行了详细的展示。
🎯 应用场景
Con-ReCall可应用于评估大型语言模型的隐私风险,检测模型是否泄露了预训练数据中的敏感信息。这有助于开发者更好地理解和控制模型的行为,降低潜在的隐私安全风险。此外,该方法还可以用于评估不同训练策略对模型隐私性的影响,指导更安全的模型训练。
📄 摘要(原文)
The training data in large language models is key to their success, but it also presents privacy and security risks, as it may contain sensitive information. Detecting pre-training data is crucial for mitigating these concerns. Existing methods typically analyze target text in isolation or solely with non-member contexts, overlooking potential insights from simultaneously considering both member and non-member contexts. While previous work suggested that member contexts provide little information due to the minor distributional shift they induce, our analysis reveals that these subtle shifts can be effectively leveraged when contrasted with non-member contexts. In this paper, we propose Con-ReCall, a novel approach that leverages the asymmetric distributional shifts induced by member and non-member contexts through contrastive decoding, amplifying subtle differences to enhance membership inference. Extensive empirical evaluations demonstrate that Con-ReCall achieves state-of-the-art performance on the WikiMIA benchmark and is robust against various text manipulation techniques.