Beyond Public Access in LLM Pre-Training Data
作者: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss
分类: cs.CL, cs.AI
发布日期: 2025-04-24
DOI: 10.35650/AIDP.4111.d.2025
💡 一句话要点
利用DE-COP推断,揭示GPT-4o对版权书籍内容的更强记忆能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 成员推断攻击 版权保护 数据隐私 模型评估
📋 核心要点
- 大型语言模型训练数据来源不透明,引发版权内容是否被未经授权使用的问题。
- 使用DE-COP成员推断攻击,评估模型对特定版权内容的记忆程度,以此推断训练数据组成。
- GPT-4o对版权书籍内容识别度显著高于GPT-3.5 Turbo,表明其可能使用了更多版权数据训练。
📝 摘要(中文)
本文利用合法获取的O'Reilly Media 34本版权书籍数据集,应用DE-COP成员推断攻击方法,研究OpenAI的大型语言模型是否在未经许可的情况下,使用受版权保护的内容进行训练。AUROC评分显示,OpenAI最新的GPT-4o模型对付费的O'Reilly书籍内容表现出很强的识别能力(AUROC = 82%),相比之下,OpenAI早期的GPT-3.5 Turbo模型对公开访问的O'Reilly书籍样本的识别能力更强。GPT-4o Mini作为一个小得多的模型,在测试中没有显示出对公开或非公开O'Reilly Media内容的了解(AUROC ≈ 50%)。通过测试多个具有相同截止日期的模型,有助于解释随时间推移可能存在的语言变化,这些变化可能会使我们的发现产生偏差。这些结果突显了迫切需要提高企业在预训练数据来源方面的透明度,以此来为AI内容训练开发正式的许可框架。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)训练数据来源不透明的问题,特别是LLM是否在未经授权的情况下使用了受版权保护的内容进行训练。现有方法难以有效追踪LLM的训练数据来源,企业缺乏透明度,导致版权所有者难以维护自身权益。
核心思路:论文的核心思路是利用成员推断攻击(Membership Inference Attack, MIA)来推断LLM是否接触过特定的版权内容。如果LLM对特定版权内容表现出较强的“记忆”能力,则可以推断该内容可能被用于LLM的训练。论文采用DE-COP方法,该方法专门设计用于评估LLM对特定数据集的记忆程度。
技术框架:论文的技术框架主要包括以下几个步骤:1) 构建版权书籍数据集:收集34本O'Reilly Media的版权书籍。2) 选择目标LLM:选择OpenAI的GPT-4o、GPT-3.5 Turbo和GPT-4o Mini作为目标模型。3) 应用DE-COP攻击:使用DE-COP方法对每个LLM进行成员推断攻击,评估其对版权书籍内容的记忆程度。4) 评估攻击效果:使用AUROC(Area Under the Receiver Operating Characteristic curve)作为评估指标,衡量攻击的成功率。
关键创新:论文的关键创新在于将DE-COP方法应用于评估LLM对版权内容的记忆程度,从而间接推断LLM的训练数据来源。与传统的黑盒攻击方法相比,DE-COP方法更专注于评估模型对特定数据集的记忆能力,从而更有效地识别潜在的版权侵权行为。此外,论文还通过对比不同规模和不同版本的LLM,来排除语言模型随时间推移可能产生的偏差。
关键设计:论文的关键设计包括:1) 使用AUROC作为评估指标,AUROC值越高,表明攻击越成功,模型对目标数据集的记忆程度越高。2) 对比不同规模的LLM(GPT-4o和GPT-4o Mini),以评估模型规模对记忆能力的影响。3) 对比不同版本的LLM(GPT-4o和GPT-3.5 Turbo),以评估模型更新对训练数据的影响。4) 使用相同的截止日期来训练不同的模型,以控制潜在的语言漂移偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o对O'Reilly版权书籍内容的AUROC值为82%,显著高于GPT-3.5 Turbo,表明GPT-4o可能使用了更多版权数据进行训练。而GPT-4o Mini的AUROC值接近50%,表明其对O'Reilly版权内容几乎没有记忆。这些结果突显了不同模型在训练数据上的差异,以及模型规模对记忆能力的影响。
🎯 应用场景
该研究成果可应用于评估其他LLM的训练数据来源,帮助版权所有者识别潜在的侵权行为。同时,该研究也为建立LLM训练数据的许可框架提供了理论基础,促进AI行业的健康发展。未来,可以进一步研究如何利用该方法来识别LLM训练数据中的其他敏感信息,例如个人隐私数据。
📄 摘要(原文)
Using a legally obtained dataset of 34 copyrighted O'Reilly Media books, we apply the DE-COP membership inference attack method to investigate whether OpenAI's large language models were trained on copyrighted content without consent. Our AUROC scores show that GPT-4o, OpenAI's more recent and capable model, demonstrates strong recognition of paywalled O'Reilly book content (AUROC = 82\%), compared to OpenAI's earlier model GPT-3.5 Turbo. In contrast, GPT-3.5 Turbo shows greater relative recognition of publicly accessible O'Reilly book samples. GPT-4o Mini, as a much smaller model, shows no knowledge of public or non-public O'Reilly Media content when tested (AUROC $\approx$ 50\%). Testing multiple models, with the same cutoff date, helps us account for potential language shifts over time that might bias our findings. These results highlight the urgent need for increased corporate transparency regarding pre-training data sources as a means to develop formal licensing frameworks for AI content training