Fine-Tuning Large Language Models to Appropriately Abstain with Semantic Entropy

📄 arXiv: 2410.17234v1 📥 PDF

作者: Benedict Aaron Tjandra, Muhammed Razzak, Jannik Kossen, Kunal Handa, Yarin Gal

分类: cs.CL, cs.LG

发布日期: 2024-10-22

备注: Accepted to NeurIPS Safe Generative AI Workshop 2024


💡 一句话要点

提出基于语义熵的大语言模型微调方法,提升模型拒绝回答不确定问题的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微调 语义熵 不确定性估计 幻觉缓解

📋 核心要点

  1. 大型语言模型容易产生幻觉,在医疗等关键领域造成风险,需要有效缓解。
  2. 论文提出基于语义熵的微调方法,无需外部标签即可衡量模型的不确定性。
  3. 实验表明,该方法在短文本和长文本生成任务上均表现出色,优于现有方法。

📝 摘要(中文)

大型语言模型(LLMs)存在幻觉问题,即生成看似合理但不准确的文本。这在医疗或法律等关键应用中构成重大风险,因此需要有效的幻觉缓解策略。现有工作提出了微调方法,使LLMs能够拒绝回答超出其知识或能力范围的问题,但这些方法依赖于真实标签或仅限于简短回复。为了解决这些限制,我们提出了一种使用语义熵进行微调的方法,语义熵是一种源于模型自省的不确定性度量,不需要外部标签。实验表明,我们的方法在各种数据集上,对于短文本和长文本生成,均能达到或超过使用先前工作微调的模型性能。

🔬 方法详解

问题定义:大型语言模型(LLMs)在生成文本时容易产生幻觉,即生成看似合理但实际上不准确或不真实的文本。现有的微调方法,旨在让LLMs学会拒绝回答超出其知识范围或能力的问题,但这些方法通常依赖于人工标注的真实标签,或者只能处理简短的回复,限制了其应用范围。

核心思路:论文的核心思路是利用语义熵作为一种内在的不确定性度量,来指导LLMs的微调过程。语义熵是从模型自身输出中提取的,不需要外部标签。通过优化模型,使其在不确定的情况下产生较低置信度的输出,从而学会拒绝回答不确定的问题。这样设计的目的是为了克服现有方法对外部标签的依赖,并扩展到长文本生成任务。

技术框架:该方法主要包含以下几个阶段:1) 使用LLM生成文本;2) 计算生成文本的语义熵;3) 使用语义熵作为奖励信号,微调LLM,使其学会拒绝回答不确定的问题。整体流程是,首先让模型生成答案,然后通过语义熵评估答案的不确定性,最后利用这个不确定性信息来调整模型的参数,使其在遇到类似的不确定问题时,能够选择拒绝回答。

关键创新:该方法最重要的技术创新点在于使用语义熵作为一种内在的、无需外部标签的不确定性度量。与现有方法相比,它不需要人工标注的数据,可以更方便地应用于各种场景。此外,该方法能够处理长文本生成任务,克服了现有方法只能处理短文本回复的局限性。

关键设计:论文的关键设计包括:1) 语义熵的计算方式,具体如何从模型的输出中提取不确定性信息;2) 如何将语义熵作为奖励信号,用于微调LLM;3) 具体的微调策略,例如学习率、batch size等超参数的设置。这些技术细节对于模型的最终性能至关重要,但具体细节在摘要中没有详细说明,属于未知信息。

🖼️ 关键图片

img_0

📊 实验亮点

该研究提出了一种基于语义熵的LLM微调方法,无需外部标签即可有效提升模型拒绝回答不确定问题的能力。实验结果表明,该方法在短文本和长文本生成任务上均能达到或超过现有方法的性能,证明了其有效性和通用性。具体的性能提升幅度和对比基线在摘要中没有明确给出,属于未知信息。

🎯 应用场景

该研究成果可广泛应用于需要高可靠性的自然语言生成任务中,例如医疗诊断、法律咨询、金融分析等领域。通过提高LLMs拒绝回答不确定问题的能力,可以有效降低模型产生幻觉的风险,提高生成文本的准确性和可信度,从而提升用户体验和决策质量。未来,该方法有望进一步扩展到其他类型的生成模型和任务中。

📄 摘要(原文)

Large Language Models (LLMs) are known to hallucinate, whereby they generate plausible but inaccurate text. This phenomenon poses significant risks in critical applications, such as medicine or law, necessitating robust hallucination mitigation strategies. While recent works have proposed fine-tuning methods to teach LLMs to abstain from answering questions beyond their knowledge or capabilities, these methods rely on the existence of ground-truth labels or are limited to short-form responses. To address these limitations, we propose fine-tuning using semantic entropy, an uncertainty measure derived from introspection into the model which does not require external labels. We demonstrate that our approach matches or outperforms models fine-tuned using prior work and achieves strong performance for both short and long-form generations on a range of datasets.