HICD: Hallucination-Inducing via Attention Dispersion for Contrastive Decoding to Mitigate Hallucinations in Large Language Models

📄 arXiv: 2503.12908v4 📥 PDF

作者: Xinyan Jiang, Hang Ye, Yongxin Zhu, Xiaoying Zheng, Zikang Chen, Jun Gong

分类: cs.CL, cs.AI

发布日期: 2025-03-17 (更新: 2025-05-23)

备注: Accepted by ACL2025 findings


💡 一句话要点

提出HICD,通过注意力分散诱导幻觉,用于对比解码以缓解大语言模型中的幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 幻觉缓解 对比解码 注意力机制 自然语言生成

📋 核心要点

  1. 大语言模型存在幻觉问题,生成不准确或不真实的文本,影响了模型的可靠性和实用性。
  2. HICD通过选择关键注意力头并分散其注意力来诱导幻觉,然后利用对比解码来区分真实信息和幻觉。
  3. 实验表明,HICD在上下文补全、阅读理解和问答等任务上显著提升了性能,并提高了知识回忆的准确性。

📝 摘要(中文)

大型语言模型(LLMs)经常产生幻觉,生成在上下文中不准确或事实上不正确的输出。我们提出了一种新颖的方法HICD,旨在诱导幻觉以进行对比解码,从而缓解幻觉。与现有的对比解码方法不同,HICD选择对模型预测至关重要的注意力头作为诱导头,然后通过分散这些诱导头的注意力来诱导幻觉,并将幻觉输出与原始输出进行比较,以获得最终结果。我们的方法显著提高了在需要上下文忠实性的任务(如上下文补全、阅读理解和问答)上的性能,并且提高了在需要准确知识回忆的任务中的事实性。我们证明,我们的诱导头选择和注意力分散方法为对比解码带来了更具“对比效果”的幻觉,优于其他幻觉诱导方法。我们的发现为通过以受控方式诱导幻觉来减少幻觉提供了一种有希望的策略,从而增强了LLM在各种任务中的性能。

🔬 方法详解

问题定义:大语言模型(LLMs)在生成文本时,经常出现幻觉现象,即生成与上下文不符或与事实相悖的内容。现有的对比解码方法虽然尝试缓解幻觉,但缺乏有效的幻觉诱导机制,难以充分利用对比学习的优势。

核心思路:HICD的核心在于通过有控制地诱导幻觉,并利用对比解码来区分和抑制这些幻觉,从而提高生成文本的真实性和准确性。其基本假设是,通过精心设计的幻觉诱导,可以更有效地训练模型识别和避免幻觉。

技术框架:HICD主要包含以下几个阶段:1) 诱导头选择:根据注意力权重,选择对模型预测影响最大的注意力头作为诱导头。2) 注意力分散:对选定的诱导头的注意力进行分散,使其关注更多不同的信息,从而产生幻觉。3) 对比解码:将原始输出和幻觉输出进行对比,通过某种策略(例如,选择与原始输出差异最大的部分)来抑制幻觉,并生成最终结果。

关键创新:HICD的关键创新在于其幻觉诱导机制。与以往随机或无差别地引入噪声的方法不同,HICD通过选择关键注意力头并分散其注意力,实现了更有针对性和“对比效果”的幻觉诱导。这种方法能够更有效地训练模型区分真实信息和幻觉。

关键设计:HICD的关键设计包括:1) 诱导头选择策略:具体如何选择对预测影响最大的注意力头,例如基于注意力权重的阈值或排序。2) 注意力分散方法:如何分散注意力,例如通过添加噪声、随机mask或与其他注意力头的注意力进行混合。3) 对比解码策略:如何利用原始输出和幻觉输出进行对比,例如基于交叉熵损失或KL散度等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HICD在上下文补全、阅读理解和问答等任务上取得了显著的性能提升。实验结果表明,HICD优于现有的对比解码方法和其他幻觉诱导方法,证明了其有效性。例如,在某项阅读理解任务中,HICD将模型的准确率提高了X个百分点(具体数据未知),显著降低了幻觉的发生。

🎯 应用场景

HICD方法可应用于各种需要高可靠性和准确性的自然语言生成任务,例如:自动摘要、机器翻译、对话系统、知识图谱问答等。通过减少大语言模型中的幻觉,可以提高这些应用的实用性和用户体验,并降低因错误信息带来的风险。未来,该方法有望进一步扩展到其他模态,例如图像和视频生成,以提高生成内容的一致性和真实性。

📄 摘要(原文)

Large Language Models (LLMs) often generate hallucinations, producing outputs that are contextually inaccurate or factually incorrect. We introduce HICD, a novel method designed to induce hallucinations for contrastive decoding to mitigate hallucinations. Unlike existing contrastive decoding methods, HICD selects attention heads crucial to the model's prediction as inducing heads, then induces hallucinations by dispersing attention of these inducing heads and compares the hallucinated outputs with the original outputs to obtain the final result. Our approach significantly improves performance on tasks requiring contextual faithfulness, such as context completion, reading comprehension, and question answering. It also improves factuality in tasks requiring accurate knowledge recall. We demonstrate that our inducing heads selection and attention dispersion method leads to more "contrast-effective" hallucinations for contrastive decoding, outperforming other hallucination-inducing methods. Our findings provide a promising strategy for reducing hallucinations by inducing hallucinations in a controlled manner, enhancing the performance of LLMs in a wide range of tasks.