Improving Factuality in Large Language Models via Decoding-Time Hallucinatory and Truthful Comparators

📄 arXiv: 2408.12325v5 📥 PDF

作者: Dingkang Yang, Dongling Xiao, Jinjie Wei, Mingcheng Li, Zhaoyu Chen, Ke Li, Lihua Zhang

分类: cs.CL

发布日期: 2024-08-22 (更新: 2025-01-25)

备注: Accepted by AAAI 2025. We recommend reading this version as it contains more complete details than the camera ready version


💡 一句话要点

提出Comparator-driven Decoding-Time框架,提升大语言模型生成内容的真实性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉问题 事实性 解码时干预 比较器 多任务学习 指令学习

📋 核心要点

  1. 现有方法通过优化模型参数或编辑语义表示来解决LLM幻觉问题,但会损害模型内部的事实知识。
  2. 论文提出Comparator-driven Decoding-Time (CDT) 框架,利用幻觉和真实比较器来约束LLM的token预测,提升生成内容的事实性。
  3. 实验结果表明,CDT框架能够显著提高模型在多个下游任务上的性能和回复的真实性。

📝 摘要(中文)

大型语言模型(LLMs)虽然能力强大,但容易生成与可验证事实相矛盾的回复,即不真实的幻觉内容。现有方法通常侧重于优化模型参数或编辑语义表示,这会损害目标LLM的内部事实知识。此外,幻觉通常在下游任务中表现出多方面的模式,限制了模型在不同任务中的整体性能。本文提出了一种Comparator-driven Decoding-Time(CDT)框架来缓解回复幻觉问题。首先,我们构建了具有多任务微调样本的幻觉和真实比较器。在这种情况下,我们提出了一种指令原型引导的专家混合策略,以增强相应比较器捕获不同任务指令中不同幻觉或真实性模式的能力。CDT通过对比目标LLM和这些比较器之间的logits差异,将下一个token的预测约束到事实可靠的分布。在多个下游任务上的系统实验表明,我们的框架可以显著提高模型性能和回复的真实性。

🔬 方法详解

问题定义:大型语言模型(LLMs)在生成文本时,经常出现与事实不符的“幻觉”现象。现有方法主要集中在模型参数优化或语义表示编辑上,但这些方法可能会损害模型内部已有的事实知识,并且难以应对下游任务中幻觉表现出的多样性。

核心思路:本文的核心思路是利用“比较器”在解码阶段对LLM的输出进行约束。具体来说,构建能够识别幻觉和真实信息的比较器,通过比较LLM和这些比较器的输出差异,来引导LLM生成更符合事实的内容。这种方法避免了直接修改LLM的参数,从而保护了其内部的事实知识。

技术框架:CDT框架主要包含以下几个模块:1) 幻觉比较器和真实比较器:使用多任务微调样本训练得到,用于区分LLM生成的文本是幻觉还是真实信息。2) 指令原型引导的专家混合策略:用于增强比较器捕捉不同任务指令下幻觉和真实性模式的能力。3) 解码时约束:通过对比目标LLM和比较器之间的logits差异,调整LLM的token预测分布,使其更倾向于生成符合事实的token。

关键创新:该方法的主要创新在于提出了一种在解码阶段利用比较器来提升LLM生成内容真实性的框架。与现有方法相比,CDT框架不需要修改LLM的参数,而是通过外部的比较器来引导LLM的生成过程,从而更好地保护了LLM内部的事实知识,并且能够更好地适应不同任务下的幻觉模式。

关键设计:在比较器的训练过程中,使用了指令原型引导的专家混合策略,以增强比较器对不同任务指令的适应性。在解码时,通过计算目标LLM和比较器之间的logits差异,并将其用于调整LLM的token预测分布。具体的调整方式未知,论文中可能使用了某种加权或归一化方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在多个下游任务上进行了实验,结果表明CDT框架能够显著提高模型性能和回复的真实性。具体的性能数据和提升幅度未知,但摘要中明确指出CDT框架能够“significantly improve the model performance and response factuality”。

🎯 应用场景

该研究成果可应用于各种需要高质量、高可信度文本生成的场景,例如:智能客服、新闻写作、报告生成、教育辅导等。通过提高LLM生成内容的真实性,可以减少错误信息的传播,提升用户体验,并增强人们对AI系统的信任。

📄 摘要(原文)

Despite their remarkable capabilities, Large Language Models (LLMs) are prone to generate responses that contradict verifiable facts, i.e., unfaithful hallucination content. Existing efforts generally focus on optimizing model parameters or editing semantic representations, which compromise the internal factual knowledge of target LLMs. In addition, hallucinations typically exhibit multifaceted patterns in downstream tasks, limiting the model's holistic performance across tasks. In this paper, we propose a Comparator-driven Decoding-Time (CDT) framework to alleviate the response hallucination. Firstly, we construct hallucinatory and truthful comparators with multi-task fine-tuning samples. In this case, we present an instruction prototype-guided mixture of experts strategy to enhance the ability of the corresponding comparators to capture different hallucination or truthfulness patterns in distinct task instructions. CDT constrains next-token predictions to factuality-robust distributions by contrasting the logit differences between the target LLMs and these comparators. Systematic experiments on multiple downstream tasks show that our framework can significantly improve the model performance and response factuality.