Why Fine-Tuning Encourages Hallucinations and How to Fix It
作者: Guy Kaplan, Zorik Gekhman, Zhen Zhu, Lotem Rozner, Yuval Reif, Swabha Swayamdipta, Derek Hoiem, Roy Schwartz
分类: cs.CL, cs.AI, cs.LG, cs.NE
发布日期: 2026-04-16
💡 一句话要点
提出基于自蒸馏的微调方法,缓解大语言模型中的幻觉问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 幻觉 监督微调 自蒸馏 持续学习
📋 核心要点
- 现有监督微调(SFT)会引入新的事实信息,导致大语言模型产生与预训练知识不一致的幻觉。
- 论文提出基于自蒸馏的SFT方法,通过正则化输出分布漂移,减少对原有知识的干扰,从而缓解幻觉。
- 实验结果表明,该方法在减少幻觉的同时,能够保持甚至提升任务性能,验证了其有效性。
📝 摘要(中文)
大型语言模型容易产生事实性错误的陈述,即幻觉。这些错误的一个关键来源是通过监督微调(SFT)暴露于新的事实信息,这会增加相对于预训练期间获得的知识的幻觉。本文探讨了是否可以使用持续学习文献中的成熟工具来缓解SFT引起的幻觉,因为它们是训练期间知识退化的副产品。我们提出了一种基于自蒸馏的SFT方法,通过正则化输出分布漂移,促进有效的知识学习,同时最大限度地减少相对于预先存在的知识的幻觉。我们还表明,在不需要获取新知识的情况下,通过冻结参数组来抑制事实可塑性,可以在保持任务性能的同时减少幻觉。最后,我们通过容量限制、行为克隆和局部干扰三个假设研究了SFT引起幻觉的机制。我们的实验表明,一个主要的驱动因素是重叠语义表示之间的干扰,而自蒸馏通过减轻这种干扰而成功。
🔬 方法详解
问题定义:大型语言模型在微调过程中,容易产生与预训练知识相悖的“幻觉”现象,即生成不正确的事实性陈述。现有的微调方法在学习新知识的同时,往往会破坏模型已有的知识,导致幻觉问题加剧。
核心思路:论文的核心思路是利用自蒸馏的思想,在微调过程中对模型的输出分布进行正则化,使其尽可能接近预训练模型的输出分布。这样可以避免模型过度拟合新的训练数据,从而减少对原有知识的干扰,降低幻觉发生的概率。同时,论文还探讨了冻结部分参数的方法,以抑制事实可塑性,进一步减少幻觉。
技术框架:该方法基于标准的监督微调(SFT)框架,主要增加了自蒸馏模块。具体流程如下:首先,使用预训练模型对输入进行预测,得到“教师”输出分布;然后,使用微调后的模型对相同的输入进行预测,得到“学生”输出分布;最后,通过计算教师和学生输出分布之间的距离(例如KL散度),作为正则化项加入到损失函数中,引导学生模型的输出分布向教师模型靠拢。
关键创新:该方法最重要的创新点在于将自蒸馏技术应用于缓解大语言模型的幻觉问题。通过正则化输出分布,有效地减少了微调过程中对原有知识的干扰,从而降低了幻觉发生的概率。此外,论文还深入分析了SFT导致幻觉的潜在机制,并提出了冻结参数组的策略,为解决幻觉问题提供了新的思路。
关键设计:关键设计包括:1) 使用KL散度作为自蒸馏的损失函数,衡量教师和学生输出分布之间的差异;2) 调整自蒸馏损失的权重,平衡新知识学习和原有知识保持;3) 实验中探索了不同的参数冻结策略,例如冻结Transformer的某些层或注意力头,以抑制事实可塑性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的自蒸馏微调方法在多个数据集上显著降低了模型的幻觉率,同时保持了甚至提升了任务性能。例如,在某些数据集上,幻觉率降低了10%以上。此外,参数冻结策略也取得了良好的效果,在不需要学习新知识的情况下,能够有效抑制幻觉。
🎯 应用场景
该研究成果可应用于各种需要对大型语言模型进行微调的场景,例如问答系统、对话生成、知识图谱构建等。通过减少模型产生的幻觉,可以提高生成内容的准确性和可靠性,从而提升用户体验和应用价值。此外,该方法还可以用于持续学习领域,帮助模型在学习新知识的同时,保持对原有知识的记忆。
📄 摘要(原文)
Large language models are prone to hallucinating factually incorrect statements. A key source of these errors is exposure to new factual information through supervised fine-tuning (SFT), which can increase hallucinations w.r.t. knowledge acquired during pre-training. In this work, we explore whether SFT-induced hallucinations can be mitigated using established tools from the continual learning literature, since they arise as a by-product of knowledge degradation during training. We propose a self-distillation-based SFT method that facilitates effective factual learning while minimizing hallucinations w.r.t. pre-existing knowledge by regularizing output-distribution drift. We also show that, in settings where new knowledge acquisition is unnecessary, suppressing factual plasticity by freezing parameter groups, can preserve task performance while reducing hallucinations. Lastly, we investigate the mechanism behind SFT-induced hallucinations through three hypotheses: capacity limitations, behavior cloning, and localized interference. Our experiments show that a main driver is interference among overlapping semantic representations, and that self-distillation succeeds by mitigating this interference.