Lookback Lens: Detecting and Mitigating Contextual Hallucinations in Large Language Models Using Only Attention Maps
作者: Yung-Sung Chuang, Linlu Qiu, Cheng-Yu Hsieh, Ranjay Krishna, Yoon Kim, James Glass
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-07-09 (更新: 2024-10-03)
备注: EMNLP 2024 main conference long paper. The source code is available at https://github.com/voidism/Lookback-Lens
💡 一句话要点
Lookback Lens:仅用注意力机制检测并缓解大语言模型中的上下文幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 上下文幻觉 注意力机制 幻觉检测 文本摘要
📋 核心要点
- 现有大语言模型在生成文本时存在上下文幻觉问题,即生成与输入上下文不一致的内容。
- 论文提出Lookback Lens方法,通过分析注意力权重比例来检测上下文幻觉,无需复杂的模型或训练。
- 实验表明,该方法在检测和缓解幻觉方面有效,且具有良好的跨任务和跨模型迁移能力。
📝 摘要(中文)
大型语言模型(LLM)在总结文章或回答问题时,可能会产生幻觉,给出与输入上下文不符的、不准确的答案。本文提出了一种简单的方法来检测这种上下文幻觉。我们假设上下文幻觉与LLM对提供的上下文信息和自身生成信息的关注程度有关。基于此,我们提出了一个简单的幻觉检测模型,其输入特征是上下文中注意力权重与新生成token的注意力权重之比(对于每个注意力头)。我们发现,基于这些lookback ratio特征的线性分类器与利用LLM的整个隐藏状态或基于文本的蕴含模型的更复杂的检测器一样有效。Lookback Lens检测器可以跨任务甚至跨模型迁移,允许在7B模型上训练的检测器应用于更大的13B模型(无需重新训练)。我们进一步应用该检测器来缓解上下文幻觉,并发现一种简单的分类器引导的解码方法能够减少幻觉,例如在XSum摘要任务中减少9.6%。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在文本摘要和问答等任务中出现的上下文幻觉问题。现有方法要么依赖于复杂的模型结构和大量的训练数据,要么难以跨任务和模型进行泛化,缺乏效率和通用性。
核心思路:论文的核心思路是,上下文幻觉的产生与模型对上下文信息的关注程度不足有关。通过分析模型在生成过程中对上下文和生成内容的注意力权重比例,可以有效地检测出幻觉。如果模型更多地关注自身生成的内容而非上下文,则更有可能产生幻觉。
技术框架:Lookback Lens方法主要包含以下几个阶段:1) 获取LLM在生成过程中的注意力权重;2) 计算每个注意力头中,上下文token的注意力权重之和与生成token的注意力权重之和的比值,即lookback ratio;3) 将这些lookback ratio作为特征输入到一个线性分类器中;4) 使用分类器的输出结果来检测和缓解幻觉。在缓解幻觉时,采用分类器引导的解码方法,即调整生成概率,使得模型更倾向于关注上下文信息。
关键创新:该方法最重要的创新点在于,它仅利用注意力权重这一简单信息,就能有效地检测和缓解上下文幻觉,而无需复杂的模型结构或大量的训练数据。此外,该方法具有良好的跨任务和跨模型迁移能力,可以在不同的LLM和任务上应用。
关键设计:关键设计包括:1) 使用注意力权重比率作为特征,简化了特征提取过程;2) 使用线性分类器进行幻觉检测,降低了计算成本;3) 采用分类器引导的解码方法,在生成过程中动态调整生成概率,从而缓解幻觉。论文中没有明确提及具体的参数设置或损失函数,但强调了该方法的简洁性和高效性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Lookback Lens方法在XSum摘要任务中能够将幻觉减少9.6%。此外,该方法在7B模型上训练的检测器可以直接应用于13B模型,无需重新训练,展示了良好的跨模型迁移能力。与使用整个隐藏状态或文本蕴含模型的复杂检测器相比,该方法在性能上具有竞争力,同时计算成本更低。
🎯 应用场景
该研究成果可应用于各种需要大语言模型生成文本的场景,例如自动摘要、机器翻译、问答系统等。通过减少模型产生的幻觉,可以提高生成文本的质量和可靠性,增强用户信任度。该方法还有助于提升LLM在信息检索、内容创作等领域的应用效果,并为开发更安全、更可靠的AI系统提供技术支持。
📄 摘要(原文)
When asked to summarize articles or answer questions given a passage, large language models (LLMs) can hallucinate details and respond with unsubstantiated answers that are inaccurate with respect to the input context. This paper describes a simple approach for detecting such contextual hallucinations. We hypothesize that contextual hallucinations are related to the extent to which an LLM attends to information in the provided context versus its own generations. Based on this intuition, we propose a simple hallucination detection model whose input features are given by the ratio of attention weights on the context versus newly generated tokens (for each attention head). We find that a linear classifier based on these lookback ratio features is as effective as a richer detector that utilizes the entire hidden states of an LLM or a text-based entailment model. The lookback ratio-based detector -- Lookback Lens -- is found to transfer across tasks and even models, allowing a detector that is trained on a 7B model to be applied (without retraining) to a larger 13B model. We further apply this detector to mitigate contextual hallucinations, and find that a simple classifier-guided decoding approach is able to reduce the amount of hallucination, for example by 9.6% in the XSum summarization task.