Novel-WD: Exploring acquisition of Novel World Knowledge in LLMs Using Prefix-Tuning
作者: Maxime Méloux, Christophe Cerisara
分类: cs.CL
发布日期: 2024-08-30
💡 一句话要点
提出Novel-WD数据集,探索Prefix-Tuning在LLM中学习新世界知识的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 知识学习 Prefix-Tuning 参数高效微调 世界知识 持续学习 Novel-WD数据集
📋 核心要点
- 现有模型微调等方法学习新知识效率低,持续学习成本高且易发生灾难性遗忘。
- 利用Prefix-Tuning,通过调整少量前缀参数,使LLM能够学习并记忆新的世界知识。
- 实验表明,单个prefix可以可靠地编码单个事实,且prefix容量随长度和模型大小增加。
📝 摘要(中文)
本文研究并量化了预训练大语言模型(PLM)学习和记忆预训练语料库中未出现的新世界知识的能力。为此,我们提出了Novel-WD,这是一个新的数据集,包含从最近的Wikidata更新中提取的新事实的句子,以及两种评估任务:因果语言建模和多项选择题(MCQ)。该数据集免费提供给社区,并发布了一个程序,以便后续构建包含最新信息的类似数据集的新版本。我们还探索了使用prefix-tuning进行新信息学习,并分析了在给定prefix中可以存储多少信息。结果表明,单个事实可以可靠地编码在单个prefix中,并且prefix的容量随着其长度和基础模型大小的增加而增加。
🔬 方法详解
问题定义:预训练的大型语言模型(LLM)通常缺乏最新的世界知识,因为它们的训练数据仅包含截止到特定日期的信息。如何有效地让LLM学习和记忆这些新的世界知识,同时避免灾难性遗忘,是一个重要的挑战。现有的微调方法学习速度慢,而持续学习方法成本高昂且容易遗忘。
核心思路:本文的核心思路是利用Prefix-Tuning,这是一种参数高效的微调方法,通过在输入序列前添加可训练的前缀(prefix),来引导LLM学习新的知识。Prefix-Tuning只更新前缀的参数,而保持LLM主体参数不变,从而降低了训练成本,并减少了灾难性遗忘的风险。
技术框架:整体框架包括以下几个步骤:1) 构建Novel-WD数据集,该数据集包含从Wikidata更新中提取的新事实;2) 使用Prefix-Tuning方法训练LLM,使其学习Novel-WD数据集中的新知识;3) 使用因果语言建模和多项选择题两种任务评估LLM学习新知识的效果。该框架的核心在于Prefix-Tuning模块,它负责将新知识编码到前缀中。
关键创新:本文的关键创新在于:1) 提出了Novel-WD数据集,为研究LLM学习新世界知识提供了一个新的基准;2) 探索了Prefix-Tuning在学习新世界知识方面的能力,并证明了单个prefix可以可靠地编码单个事实;3) 分析了prefix的长度和LLM的大小对prefix容量的影响,为Prefix-Tuning的实际应用提供了指导。
关键设计:Novel-WD数据集包含从Wikidata更新中提取的新事实,这些事实以自然语言句子的形式呈现。Prefix-Tuning使用AdamW优化器进行训练,学习率设置为5e-5。实验中使用了不同长度的prefix(例如,10、50、100)和不同大小的LLM(例如,GPT-2、GPT-2 Medium、GPT-2 Large)。损失函数采用标准的交叉熵损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Prefix-Tuning可以有效地使LLM学习新的世界知识。单个prefix可以可靠地编码单个事实,并且prefix的容量随着其长度和基础模型大小的增加而增加。例如,使用长度为100的prefix,GPT-2 Large模型可以学习并记住Novel-WD数据集中的大部分新知识。
🎯 应用场景
该研究成果可应用于知识密集型任务,例如问答系统、信息检索和对话生成。通过Prefix-Tuning,可以使LLM快速适应新的领域知识,提高其在特定任务上的性能。此外,Novel-WD数据集可以作为评估LLM学习新知识能力的基准,促进相关研究的发展。
📄 摘要(原文)
Teaching new information to pre-trained large language models (PLM) is a crucial but challenging task. Model adaptation techniques, such as fine-tuning and parameter-efficient training have been shown to store new facts at a slow rate; continual learning is an option but is costly and prone to catastrophic forgetting. This work studies and quantifies how PLM may learn and remember new world knowledge facts that do not occur in their pre-training corpus, which only contains world knowledge up to a certain date. To that purpose, we first propose Novel-WD, a new dataset consisting of sentences containing novel facts extracted from recent Wikidata updates, along with two evaluation tasks in the form of causal language modeling and multiple choice questions (MCQ). We make this dataset freely available to the community, and release a procedure to later build new versions of similar datasets with up-to-date information. We also explore the use of prefix-tuning for novel information learning, and analyze how much information can be stored within a given prefix. We show that a single fact can reliably be encoded within a single prefix, and that the prefix capacity increases with its length and with the base model size.