Methods to Assess the UK Government's Current Role as a Data Provider for AI
作者: Neil Majithia, Elena Simperl
分类: cs.CY, cs.AI, cs.IR
发布日期: 2024-11-27 (更新: 2024-12-18)
备注: 17 pages, 5 figures; v2 - incorporated editor feedback; for the accompanying, non-technical ODI report see https://theodi.org/insights/reports/the-uk-government-as-a-data-provider-for-ai
💡 一句话要点
提出两种方法评估英国政府作为AI数据提供者的角色,揭示LLM训练数据来源。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数据评估 开放数据 消融研究 信息泄露 政府数据 AI政策
📋 核心要点
- 大型语言模型训练数据构成不透明,政府数据共享策略难以制定,需要有效方法评估政府数据对AI的贡献。
- 论文提出两种方法:基于LLM遗忘的消融研究,评估政府网站数据重要性;基于信息泄露的研究,评估开放数据集的利用率。
- 实验表明,英国政府网站是LLM的重要数据来源,但data.gov.uk的使用率不高,为政府AI政策制定提供依据。
📝 摘要(中文)
政府通常收集和管理大量关于其公民和机构的高质量数据,英国政府正在探索如何更好地发布和提供这些数据,以促进人工智能的发展。然而,生成式人工智能训练语料库的构成仍然是严格保密的,这使得数据共享计划的制定变得困难。为了解决这个问题,我们设计了两种方法来评估英国政府数据在大型语言模型(LLM)训练中的使用情况,并“窥视幕后”,以观察英国政府目前作为人工智能数据提供者的贡献。第一种方法是消融研究,它利用LLM的“遗忘”来检验英国政府网站上所持有的信息对于LLM及其在公民查询任务中的表现的重要性。第二种方法是信息泄露研究,旨在确定LLM是否了解英国政府开放数据倡议data.gov.uk上发布的数据集中所包含的信息。我们的研究结果表明,英国政府网站是人工智能的重要数据来源(在不同主题领域之间存在异质性),而data.gov.uk则不然。本文是一份技术报告,深入解释了上述实验的设计、机制和局限性。它附带一份关于ODI网站的补充性非技术报告,我们在其中总结了实验和主要发现,解释了它们,并为英国政府制定人工智能政策提出了一系列可操作的建议。虽然我们专注于英国开放政府数据,但我们相信本文介绍的方法提供了一种可重现的方法来解决人工智能训练语料库的不透明性,并为组织提供了一个框架来评估和最大化他们对人工智能发展的贡献。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)训练数据来源不透明的问题,特别是评估英国政府作为数据提供者对AI的贡献。现有方法难以窥探LLM训练语料库的构成,使得政府无法有效制定数据共享策略,最大化其数据价值。现有方法的痛点在于无法量化特定数据源(如政府网站或开放数据集)对LLM性能的影响。
核心思路:论文的核心思路是设计可行的实验方法,通过观察LLM在特定数据源缺失或存在情况下的行为变化,来推断该数据源对LLM的重要性。具体而言,通过“遗忘”实验评估政府网站数据的影响,通过“信息泄露”实验评估开放数据集的利用率。这种设计允许研究人员在不直接访问训练数据的情况下,间接评估数据源的价值。
技术框架:论文包含两个主要实验方法: 1. 消融研究(Ablation Study):首先训练一个LLM,然后通过“遗忘”技术移除LLM中与英国政府网站相关的信息。接着,比较遗忘前后的LLM在回答涉及英国政府相关问题的表现,以此评估政府网站数据对LLM性能的影响。 2. 信息泄露研究(Information Leakage Study):评估LLM是否“知道”英国政府开放数据倡议data.gov.uk上发布的数据集中的信息。如果LLM能够回答基于这些数据集的问题,则表明这些数据集可能被用于LLM的训练。
关键创新:论文的关键创新在于提出了两种间接评估LLM训练数据来源的方法,无需直接访问训练数据。这两种方法提供了一种可重现的框架,用于评估组织机构(尤其是政府机构)对AI发展的贡献,并帮助他们制定更有效的数据共享策略。这种方法可以推广到其他类型的数据源和组织机构。
关键设计: * 消融研究:使用LLM“遗忘”技术,具体实现方式未知(论文中未详细说明)。评估指标是LLM在特定任务上的准确率或F1值。 * 信息泄露研究:设计一系列问题,这些问题的答案可以在data.gov.uk的数据集中找到。评估指标是LLM回答这些问题的准确率。具体的问题设计和评估指标细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,英国政府网站是LLM的重要数据来源,但不同主题领域的数据重要性存在差异。同时,data.gov.uk的数据集对LLM的影响相对较小。具体的性能数据和提升幅度在摘要中未明确给出,需要在论文正文中查找。
🎯 应用场景
该研究成果可应用于评估政府开放数据政策的效果,指导数据共享策略的制定,并帮助其他组织机构评估其数据资产对AI发展的贡献。此外,该方法还可用于识别LLM训练数据中的潜在偏差,提高AI系统的公平性和可靠性。
📄 摘要(原文)
Governments typically collect and steward a vast amount of high-quality data on their citizens and institutions, and the UK government is exploring how it can better publish and provision this data to the benefit of the AI landscape. However, the compositions of generative AI training corpora remain closely guarded secrets, making the planning of data sharing initiatives difficult. To address this, we devise two methods to assess UK government data usage for the training of Large Language Models (LLMs) and 'peek behind the curtain' in order to observe the UK government's current contributions as a data provider for AI. The first method, an ablation study that utilises LLM 'unlearning', seeks to examine the importance of the information held on UK government websites for LLMs and their performance in citizen query tasks. The second method, an information leakage study, seeks to ascertain whether LLMs are aware of the information held in the datasets published on the UK government's open data initiative data$.$gov$.$uk. Our findings indicate that UK government websites are important data sources for AI (heterogenously across subject matters) while data$.$gov$.$uk is not. This paper serves as a technical report, explaining in-depth the designs, mechanics, and limitations of the above experiments. It is accompanied by a complementary non-technical report on the ODI website in which we summarise the experiments and key findings, interpret them, and build a set of actionable recommendations for the UK government to take forward as it seeks to design AI policy. While we focus on UK open government data, we believe that the methods introduced in this paper present a reproducible approach to tackle the opaqueness of AI training corpora and provide organisations a framework to evaluate and maximize their contributions to AI development.