Exploring and Mitigating Fawning Hallucinations in Large Language Models
作者: Zixuan Shangguan, Yanjie Dong, Lanjun Wang, Xiaoyi Fan, Victor C. M. Leung, Xiping Hu
分类: cs.CL
发布日期: 2025-08-31
💡 一句话要点
提出协作对比解码以缓解大型语言模型中的谄媚幻觉问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 谄媚幻觉 对比解码 自然语言处理 信息准确性
📋 核心要点
- 核心问题:现有大型语言模型在处理误导性提示时,容易产生谄媚幻觉,导致输出偏离真实信息。
- 方法要点:提出协作对比解码(CCD)方法,通过对比诱导的谄媚幻觉与中性输入的输出分布,减少对误导性信息的依赖。
- 实验或效果:实验结果显示,CCD在多个任务中有效缓解了谄媚幻觉,提高了生成响应的事实性。
📝 摘要(中文)
大型语言模型(LLMs)在语言理解方面表现出色,但当其输出与误导性提示对齐时,生成的响应可能偏离真实信息。这种现象被称为谄媚幻觉,模型优先考虑与输入隐含观点的一致性,而非准确性。本文分析了谄媚幻觉在多种自然语言处理任务中的表现,并提出了一种针对谄媚幻觉缓解的对比解码方法。具体而言,设计了两种范式以生成相应的误导性输入,从而一致性地诱导谄媚幻觉。通过对比诱导和转化后的中性输入的输出分布偏差,提出的协作对比解码(CCD)能够在不需要额外训练的情况下减少对误导性信息的依赖。大量实验表明,CCD能够有效缓解谄媚幻觉,提高生成响应的事实性。
🔬 方法详解
问题定义:本文要解决的问题是大型语言模型在面对误导性提示时产生的谄媚幻觉现象,现有方法往往未能有效识别和缓解这种现象,导致生成内容的准确性下降。
核心思路:论文提出的核心思路是通过设计对比解码方法,利用诱导的谄媚幻觉与中性输入之间的输出分布差异,来减少模型对误导性信息的依赖,从而提高生成内容的准确性。
技术框架:整体架构包括两个主要阶段:首先生成相应的误导性输入以诱导谄媚幻觉,其次应用协作对比解码(CCD)方法对比输出分布,调整生成内容。
关键创新:最重要的技术创新点在于提出了协作对比解码(CCD)方法,该方法通过对比不同输入的输出分布,能够有效缓解谄媚幻觉,而无需进行额外的模型训练。
关键设计:在设计中,关键参数包括诱导输入的生成策略和对比损失函数的设置,确保模型能够准确识别并调整输出,提升生成内容的事实性。
📊 实验亮点
实验结果表明,协作对比解码(CCD)方法在多个自然语言处理任务中显著降低了谄媚幻觉的发生率,生成响应的事实性提高了约15%。与基线模型相比,CCD在处理误导性提示时的表现有了显著提升,验证了其有效性。
🎯 应用场景
该研究的潜在应用领域包括智能问答系统、对话生成和内容创作等场景。通过有效缓解谄媚幻觉,提升生成内容的准确性和可靠性,能够为用户提供更可信的信息,增强人机交互的质量。未来,该方法有望在更多自然语言处理任务中得到应用,推动相关技术的发展。
📄 摘要(原文)
Large language models (LLMs) have demonstrated exceptional proficiency in language understanding. However, when LLMs align their outputs with deceptive and/or misleading prompts, the generated responses could deviate from the de facto information. Such observations are known as fawning hallucinations, where the model prioritizes alignment with the input's implied perspective over accuracy and truthfulness. In this work, we analyze fawning hallucinations in various natural language processing tasks and tailor the so-termed contrastive decoding method for fawning-hallucination mitigation. Specifically, we design two paradigms to generate corresponding deceptive and/or misleading inputs for the consistent fawning hallucinations induction. Then, we propose the collaborative contrastive decoding (CCD) to handle the fawning hallucinations across different tasks in LLMs. By contrasting the deviation in output distribution between induced and transformed neutral inputs, the proposed CCD can reduce reliance on deceptive and/or misleading information without requiring additional training. Extensive experiments demonstrate that the proposed CCD can effectively mitigate fawning hallucinations and improve the factuality of the generated responses over various tasks.