What Models Know, How Well They Know It: Knowledge-Weighted Fine-Tuning for Learning When to Say "I Don't Know"

📄 arXiv: 2604.05779v1 📥 PDF

作者: Joosung Lee, Hwiyeol Jo, Donghyeon Ko, Kyubyung Chae, Cheonbok Park, Jeonghoon Kim

分类: cs.CL, cs.AI

发布日期: 2026-04-07

备注: 8 pages


💡 一句话要点

提出知识加权微调方法,提升大语言模型识别未知问题的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 知识对齐 微调 不确定性估计 幻觉

📋 核心要点

  1. 大语言模型存在幻觉问题,源于预训练和微调阶段的知识不对齐。
  2. 论文提出知识加权微调,利用知识得分调整学习信号,鼓励模型表达不确定性。
  3. 实验表明,该方法能有效提升模型识别未知问题的能力,并保持已知问题的准确性。

📝 摘要(中文)

大型语言模型(LLMs)在各种用户查询中表现出强大的能力,但仍然存在幻觉问题,这通常是由于预训练和微调之间的知识不对齐引起的。为了解决这种不对齐问题,本文通过多样本推理可靠地估计细粒度的实例级知识得分。利用该知识得分,根据模型现有的知识来调整学习信号,同时鼓励对超出范围的查询明确地给出“我不知道”的回答。实验结果表明,这种方法使模型能够在缺乏知识时明确表达不确定性,同时保持对它可以回答的问题的准确性。此外,本文提出了不确定性的评估指标,表明准确区分已知和未知实例始终可以提高性能。

🔬 方法详解

问题定义:大型语言模型在微调后,容易产生幻觉,即给出错误或无意义的答案。这是因为微调数据可能与预训练数据存在知识上的差异,导致模型在遇到超出其知识范围的问题时,无法正确识别并拒绝回答,现有方法缺乏有效区分已知和未知问题的能力。

核心思路:论文的核心思路是让模型能够识别自身知识的边界,并在遇到不确定或超出知识范围的问题时,明确表达“我不知道”。通过引入知识得分,来衡量模型对特定问题的掌握程度,并以此指导微调过程。

技术框架:该方法主要包含以下几个阶段:1) 知识得分估计:通过多样本推理,对每个实例计算细粒度的知识得分,该得分反映了模型对该实例的置信度。2) 知识加权微调:利用知识得分来调整学习信号,对于模型已经掌握的知识,降低学习率;对于模型不熟悉的知识,提高学习率。3) 鼓励“我不知道”的回答:对于超出模型知识范围的查询,鼓励模型生成明确的“我不知道”的回答。

关键创新:该方法最重要的创新点在于,它不是简单地让模型记住更多的知识,而是让模型学会识别自身知识的边界,并根据自身知识的掌握程度来调整学习策略。这种方法能够有效减少幻觉,并提高模型在实际应用中的可靠性。

关键设计:知识得分的计算方式是关键。论文采用多样本推理,即对同一个问题进行多次采样,然后根据采样结果的一致性来估计知识得分。此外,损失函数的设计也至关重要,需要平衡模型在已知问题上的准确性和在未知问题上的不确定性表达能力。具体的参数设置和网络结构细节在论文中有详细描述,此处不再赘述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著提高模型识别未知问题的能力,同时保持在已知问题上的准确性。通过知识加权微调,模型能够更准确地区分已知和未知实例,从而减少幻觉的产生。论文还提出了不确定性的评估指标,并证明了准确区分已知和未知实例能够持续提高性能。具体的性能提升数据在论文中有详细展示。

🎯 应用场景

该研究成果可应用于各种需要高可靠性的大语言模型应用场景,例如智能客服、医疗诊断、金融分析等。通过提高模型识别未知问题的能力,可以有效减少错误信息的产生,提升用户体验,并降低潜在风险。未来,该方法有望进一步推广到其他类型的机器学习模型中,提高模型的整体可靠性和可解释性。

📄 摘要(原文)

While large language models (LLMs) demonstrate strong capabilities across diverse user queries, they still suffer from hallucinations, often arising from knowledge misalignment between pre-training and fine-tuning. To address this misalignment, we reliably estimate a fine-grained, instance-level knowledge score via multi-sampled inference. Using the knowledge score, we scale the learning signal according to the model's existing knowledge, while encouraging explicit "I don't know" responses for out-of-scope queries. Experimental results show that this approach allows the model to explicitly express uncertainty when it lacks knowledge, while maintaining accuracy on questions it can answer. Furthermore, we propose evaluation metrics for uncertainty, showing that accurate discrimination between known and unknown instances consistently improves performance.