Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination
作者: Cem Uluoglakci, Tugba Taskaya Temizel
分类: cs.CL
发布日期: 2026-03-18
💡 一句话要点
提出HypoTermInstruct数据集,通过针对性SFT提升LLM的认知谦逊性,减少幻觉
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉 认知谦逊 监督微调 数据集 知识表示 元认知 不确定性
📋 核心要点
- 现有LLM的SFT训练倾向于奖励模型给出答案,即使答案是错误的,导致模型产生幻觉。
- 论文提出HypoTermInstruct数据集,通过包含关于虚构概念的问题,训练模型识别知识盲区并表达不确定性。
- 实验表明,使用HypoTermInstruct进行SFT可以有效提高模型在HypoTerm Score和FactScore上的表现,同时保持在MMLU上的性能。
📝 摘要(中文)
大型语言模型(LLMs)经常产生幻觉,生成流畅但虚假的信息,部分原因是监督微调(SFT)隐式地奖励始终响应。我们引入了$ extit{HypoTermInstruct}$,一个SFT数据集(包含11,151个问题对应的31,487个回复),旨在教会模型认知谦逊——即识别自身知识局限性并承认不确定性的能力。这通过提问关于不存在的“假设”术语来实现。我们还发布了$ extit{HypoTermQA-Enhanced}$,一个通过多次验证加强的幻觉倾向基准。我们对$ extit{Llama3.1-8B}$和$ extit{Gemma3-4B}$(基础和指令模型)进行了800次受控LoRA SFT实验,测试了100种带有配对控制的微调配置。结果表明,用$ extit{HypoTermInstruct}$替换通用指令数据显著提高了HypoTerm Score(中位数提高了0.19%到25.91%)和FactScore(+0.39%到+0.86%),同时保持了MMLU的稳定性能(最小降幅为0.26%到0.35%)。我们的工作表明,教授元认知技能的有针对性的高质量SFT数据可以有效地减少幻觉,而无需偏好/RL流程,从而提供机制性见解和实现更可靠的AI系统的实用途径。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)中普遍存在的幻觉问题,即模型生成看似合理但实际上不正确或不存在的信息。现有的监督微调(SFT)方法往往鼓励模型始终给出答案,即使缺乏相关知识,从而加剧了幻觉现象。
核心思路:论文的核心思路是通过训练模型具备“认知谦逊”的能力来减少幻觉。认知谦逊是指模型能够识别自身知识的局限性,并在不确定时表达出来,而不是强行生成不准确的信息。为了实现这一目标,论文设计了一个专门的数据集,其中包含关于虚构或不存在的概念的问题,迫使模型面对自身的知识盲区。
技术框架:论文的技术框架主要包括以下几个部分:1) 构建HypoTermInstruct数据集,包含关于虚构术语的问题和相应的“我不知道”或“我不确定”的回答;2) 使用HypoTermInstruct数据集对LLM进行LoRA SFT微调;3) 使用HypoTermQA-Enhanced基准评估微调后模型在减少幻觉方面的表现;4) 使用MMLU基准评估微调对模型通用知识的影响。
关键创新:论文的关键创新在于提出了一种通过有针对性的SFT数据来直接教授LLM认知谦逊的方法。与以往依赖于偏好学习或强化学习来减少幻觉的方法不同,该方法更加直接和可解释,能够提供关于模型幻觉行为的机制性见解。此外,HypoTermInstruct数据集和HypoTermQA-Enhanced基准的构建也为该领域的研究提供了新的资源。
关键设计:HypoTermInstruct数据集的关键设计在于其包含大量关于虚构术语的问题,这些问题旨在触发模型的知识盲区。数据集中的每个问题都配有多个可能的回答,其中包括“我不知道”或“我不确定”等表达不确定性的选项。在SFT过程中,模型被训练选择这些选项,从而学习在面对未知信息时保持谦逊。LoRA被用于参数高效的微调,以减少计算成本并避免灾难性遗忘。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用HypoTermInstruct数据集进行SFT可以显著提高模型在HypoTerm Score上的表现,中位数提升幅度从0.19%到25.91%。同时,FactScore也得到了提升(+0.39%到+0.86%),表明模型生成的事实性信息的准确性有所提高。重要的是,MMLU上的性能仅有轻微下降(0.26%到0.35%),表明模型在减少幻觉的同时,仍然保持了较强的通用知识能力。
🎯 应用场景
该研究成果可应用于各种需要可靠信息输出的场景,例如智能客服、医疗诊断辅助、金融分析等。通过减少LLM的幻觉,可以提高AI系统的可信度和安全性,避免因错误信息导致的不良后果。未来,该方法可以进一步推广到其他类型的知识密集型任务中,提升AI系统的整体性能。
📄 摘要(原文)
Large language models (LLMs) often hallucinate, producing fluent but false information, partly because supervised fine-tuning (SFT) implicitly rewards always responding. We introduce $\textit{HypoTermInstruct}$, an SFT dataset (31,487 responses for 11,151 questions) designed to teach models epistemological humility-the ability to recognize the limits of their own knowledge and admit uncertainty. This is achieved through questions about non-existent "hypothetical" terms. We also release $\textit{HypoTermQA-Enhanced}$, a benchmark for hallucination tendency strengthened through multiple validations. We conducted 800 controlled LoRA SFT runs across $\textit{Llama3.1-8B}$ and $\textit{Gemma3-4B}$ (base and instruct), testing 100 fine-tuning configurations with paired controls. Our results demonstrate that replacing generic instruction data with $\textit{HypoTermInstruct}$ significantly improves the HypoTerm Score (median increases of 0.19% to 25.91%) and FactScore (+0.39% to +0.86%), while maintaining stable performance on MMLU (minimal decreases of 0.26% to 0.35%). Our work demonstrates that targeted, high-quality SFT data teaching meta-cognitive skills can effectively reduce hallucination without preference/RL pipelines, providing mechanistic insights and a practical path toward more reliable AI systems.