Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?
作者: Zorik Gekhman, Gal Yona, Roee Aharoni, Matan Eyal, Amir Feder, Roi Reichart, Jonathan Herzig
分类: cs.CL
发布日期: 2024-05-09 (更新: 2024-10-01)
备注: Accepted as a long paper at EMNLP 2024
💡 一句话要点
研究表明:在LLM微调中引入新知识会增加幻觉现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 微调 幻觉 知识获取 闭卷问答
📋 核心要点
- 现有LLM微调方法在引入新知识时,可能导致模型生成不准确或虚假的信息,即产生幻觉。
- 该研究通过控制微调数据中新知识的比例,分析了新知识引入对LLM幻觉行为的影响。
- 实验表明,LLM微调学习新知识的速度较慢,且新知识的引入会线性增加模型产生幻觉的倾向。
📝 摘要(中文)
大型语言模型通过监督式微调进行对齐时,可能会遇到预训练阶段未获取的新事实信息。通常认为,这会使模型学习到产生虚假信息的行为,因为它被训练生成并非基于其预先存在的知识的事实。本文研究了这种新知识暴露对微调模型利用其预先存在知识能力的影响。为此,我们设计了一个受控的设置,专注于闭卷问答,并改变了引入新知识的微调示例的比例。结果表明,大型语言模型很难通过微调获取新的事实知识,因为引入新知识的微调示例的学习速度明显慢于那些与模型知识一致的示例。然而,我们也发现,随着包含新知识的示例最终被学习,它们会线性地增加模型产生幻觉的倾向。总而言之,我们的结果突出了通过微调引入新事实知识的风险,并支持这样一种观点,即大型语言模型主要通过预训练获取事实知识,而微调则教会它们更有效地利用这些知识。
🔬 方法详解
问题定义:论文旨在研究在大型语言模型(LLM)的微调过程中,引入新的事实知识是否会增加模型产生幻觉(即生成不真实或不准确的信息)的倾向。现有方法在微调LLM时,往往忽略了新知识引入可能带来的负面影响,即模型可能会为了适应新知识而扭曲或遗忘原有知识,从而导致幻觉现象的发生。
核心思路:论文的核心思路是通过构建一个受控的实验环境,系统性地研究微调数据中新知识比例与模型幻觉现象之间的关系。通过改变微调数据中新知识的比例,观察模型在闭卷问答任务中的表现,从而量化新知识引入对模型幻觉倾向的影响。
技术框架:论文采用闭卷问答(Closed-Book QA)作为评估框架。具体流程如下: 1. 数据构建:构建包含不同比例新知识的微调数据集。 2. 模型微调:使用构建的数据集对LLM进行微调。 3. 性能评估:在闭卷问答任务上评估微调后模型的性能,重点关注模型产生幻觉的频率。 4. 结果分析:分析新知识比例与模型幻觉频率之间的关系。
关键创新:该研究的创新点在于: 1. 系统性研究:首次系统性地研究了微调过程中新知识引入对LLM幻觉现象的影响。 2. 受控实验:设计了受控的实验环境,能够精确地控制微调数据中新知识的比例。 3. 量化分析:通过量化分析,揭示了新知识比例与模型幻觉频率之间的线性关系。
关键设计:论文的关键设计包括: 1. 闭卷问答任务:选择闭卷问答任务,能够更直接地评估模型对知识的掌握程度,避免了外部信息检索带来的干扰。 2. 新知识比例控制:通过精确控制微调数据中新知识的比例,能够更准确地评估新知识引入对模型的影响。 3. 幻觉评估指标:设计了合适的指标来评估模型产生幻觉的频率,例如,检查模型生成的答案是否与预训练知识一致。
📊 实验亮点
实验结果表明,大型语言模型很难通过微调有效地学习新知识,且引入新知识的微调示例的学习速度明显慢于那些与模型知识一致的示例。更重要的是,研究发现,随着包含新知识的示例最终被学习,它们会线性地增加模型产生幻觉的倾向,这突显了通过微调引入新事实知识的风险。
🎯 应用场景
该研究成果可应用于提升大型语言模型的可靠性和可信度,尤其是在需要模型提供准确、可靠信息的场景中,例如医疗诊断、金融分析、法律咨询等。通过更好地理解和控制微调过程中新知识的引入,可以降低模型产生幻觉的风险,提高其在实际应用中的表现。
📄 摘要(原文)
When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.