Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

作者: Cem Uluoglakci, Tugba Taskaya Temizel

分类: cs.CL

发布日期: 2026-03-18

💡 一句话要点

提出HypoTermInstruct数据集，通过针对性SFT提升LLM的认知谦逊性，减少幻觉

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉 认知谦逊 监督微调 数据集 知识表示 元认知 不确定性

📋 核心要点

现有LLM的SFT训练倾向于奖励模型给出答案，即使答案是错误的，导致模型产生幻觉。
论文提出HypoTermInstruct数据集，通过包含关于虚构概念的问题，训练模型识别知识盲区并表达不确定性。
实验表明，使用HypoTermInstruct进行SFT可以有效提高模型在HypoTerm Score和FactScore上的表现，同时保持在MMLU上的性能。

📝 摘要（中文）

大型语言模型（LLMs）经常产生幻觉，生成流畅但虚假的信息，部分原因是监督微调（SFT）隐式地奖励始终响应。我们引入了$ extit{HypoTermInstruct}$，一个SFT数据集（包含11,151个问题对应的31,487个回复），旨在教会模型认知谦逊——即识别自身知识局限性并承认不确定性的能力。这通过提问关于不存在的“假设”术语来实现。我们还发布了$ extit{HypoTermQA-Enhanced}$，一个通过多次验证加强的幻觉倾向基准。我们对$ extit{Llama3.1-8B}$和$ extit{Gemma3-4B}$（基础和指令模型）进行了800次受控LoRA SFT实验，测试了100种带有配对控制的微调配置。结果表明，用$ extit{HypoTermInstruct}$替换通用指令数据显著提高了HypoTerm Score（中位数提高了0.19%到25.91%）和FactScore（+0.39%到+0.86%），同时保持了MMLU的稳定性能（最小降幅为0.26%到0.35%）。我们的工作表明，教授元认知技能的有针对性的高质量SFT数据可以有效地减少幻觉，而无需偏好/RL流程，从而提供机制性见解和实现更可靠的AI系统的实用途径。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）中普遍存在的幻觉问题，即模型生成看似合理但实际上不正确或不存在的信息。现有的监督微调（SFT）方法往往鼓励模型始终给出答案，即使缺乏相关知识，从而加剧了幻觉现象。

核心思路：论文的核心思路是通过训练模型具备“认知谦逊”的能力来减少幻觉。认知谦逊是指模型能够识别自身知识的局限性，并在不确定时表达出来，而不是强行生成不准确的信息。为了实现这一目标，论文设计了一个专门的数据集，其中包含关于虚构或不存在的概念的问题，迫使模型面对自身的知识盲区。

技术框架：论文的技术框架主要包括以下几个部分：1) 构建HypoTermInstruct数据集，包含关于虚构术语的问题和相应的“我不知道”或“我不确定”的回答；2) 使用HypoTermInstruct数据集对LLM进行LoRA SFT微调；3) 使用HypoTermQA-Enhanced基准评估微调后模型在减少幻觉方面的表现；4) 使用MMLU基准评估微调对模型通用知识的影响。

关键创新：论文的关键创新在于提出了一种通过有针对性的SFT数据来直接教授LLM认知谦逊的方法。与以往依赖于偏好学习或强化学习来减少幻觉的方法不同，该方法更加直接和可解释，能够提供关于模型幻觉行为的机制性见解。此外，HypoTermInstruct数据集和HypoTermQA-Enhanced基准的构建也为该领域的研究提供了新的资源。

关键设计：HypoTermInstruct数据集的关键设计在于其包含大量关于虚构术语的问题，这些问题旨在触发模型的知识盲区。数据集中的每个问题都配有多个可能的回答，其中包括“我不知道”或“我不确定”等表达不确定性的选项。在SFT过程中，模型被训练选择这些选项，从而学习在面对未知信息时保持谦逊。LoRA被用于参数高效的微调，以减少计算成本并避免灾难性遗忘。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用HypoTermInstruct数据集进行SFT可以显著提高模型在HypoTerm Score上的表现，中位数提升幅度从0.19%到25.91%。同时，FactScore也得到了提升（+0.39%到+0.86%），表明模型生成的事实性信息的准确性有所提高。重要的是，MMLU上的性能仅有轻微下降（0.26%到0.35%），表明模型在减少幻觉的同时，仍然保持了较强的通用知识能力。

🎯 应用场景

该研究成果可应用于各种需要可靠信息输出的场景，例如智能客服、医疗诊断辅助、金融分析等。通过减少LLM的幻觉，可以提高AI系统的可信度和安全性，避免因错误信息导致的不良后果。未来，该方法可以进一步推广到其他类型的知识密集型任务中，提升AI系统的整体性能。

📄 摘要（原文）

Large language models (LLMs) often hallucinate, producing fluent but false information, partly because supervised fine-tuning (SFT) implicitly rewards always responding. We introduce $\textit{HypoTermInstruct}$, an SFT dataset (31,487 responses for 11,151 questions) designed to teach models epistemological humility-the ability to recognize the limits of their own knowledge and admit uncertainty. This is achieved through questions about non-existent "hypothetical" terms. We also release $\textit{HypoTermQA-Enhanced}$, a benchmark for hallucination tendency strengthened through multiple validations. We conducted 800 controlled LoRA SFT runs across $\textit{Llama3.1-8B}$ and $\textit{Gemma3-4B}$ (base and instruct), testing 100 fine-tuning configurations with paired controls. Our results demonstrate that replacing generic instruction data with $\textit{HypoTermInstruct}$ significantly improves the HypoTerm Score (median increases of 0.19% to 25.91%) and FactScore (+0.39% to +0.86%), while maintaining stable performance on MMLU (minimal decreases of 0.26% to 0.35%). Our work demonstrates that targeted, high-quality SFT data teaching meta-cognitive skills can effectively reduce hallucination without preference/RL pipelines, providing mechanistic insights and a practical path toward more reliable AI systems.

Inducing Epistemological Humility in Large Language Models: A Targeted SFT Approach to Reducing Hallucination

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理