Triggering Hallucinations in LLMs: A Quantitative Study of Prompt-Induced Hallucination in Large Language Models

📄 arXiv: 2505.00557v1 📥 PDF

作者: Makoto Sato

分类: cs.CL, cs.AI

发布日期: 2025-05-01


💡 一句话要点

提出一种基于提示的框架,用于触发和量化大型语言模型中的幻觉现象。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉现象 提示工程 可信度评估 自然语言处理

📋 核心要点

  1. 大型语言模型在事实性方面存在幻觉问题,严重制约了其在关键领域的应用。
  2. 论文提出一种基于提示的框架,通过诱导和量化来系统研究LLM的幻觉现象。
  3. 实验表明,该框架能有效触发幻觉,且不同类型的LLM表现出不同的幻觉特征。

📝 摘要(中文)

大型语言模型(LLM)中的幻觉现象在医疗、法律等对事实可靠性要求高的实际应用中构成了日益严峻的挑战。尽管在对齐和指令微调方面取得了进展,LLM仍然会生成流畅但不真实的内容。理解这些幻觉背后的认知机制仍然是一个未解决的问题。本研究提出了一种基于提示的框架,以系统地触发和量化幻觉:一种幻觉诱导提示(HIP),它以误导性的方式合成语义上遥远的概念(例如,元素周期表和塔罗牌占卜);以及一种幻觉量化提示(HQP),它对输出的可信度、置信度和连贯性进行评分。跨多个LLM的受控实验表明,与空融合对照组相比,HIP始终产生较不连贯且更具幻觉的响应。这些影响因模型而异,面向推理的LLM显示出与通用LLM不同的特征。我们的框架为研究幻觉脆弱性提供了一个可复现的测试平台,并为开发更安全、更具自省能力的LLM打开了大门,这些LLM可以检测和自我调节概念不稳定性的发生。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中幻觉现象难以系统性触发和量化的问题。现有方法难以有效诱导LLM产生幻觉,也缺乏对幻觉程度的客观评估手段。这阻碍了对LLM幻觉机制的深入理解,以及开发更可靠的LLM。

核心思路:论文的核心思路是通过精心设计的提示(prompts)来诱导LLM产生幻觉,并利用另一组提示来量化幻觉的程度。这种方法允许研究人员在受控条件下研究LLM的幻觉行为,并比较不同模型之间的差异。

技术框架:该框架包含两个主要组成部分:幻觉诱导提示(Hallucination-Inducing Prompt, HIP)和幻觉量化提示(Hallucination Quantifying Prompt, HQP)。HIP通过将语义上不相关的概念融合在一起,诱导LLM产生不真实的输出。HQP则用于评估LLM输出的可信度、置信度和连贯性。整个流程包括:1)构建HIP;2)将HIP输入LLM;3)使用HQP评估LLM的输出。

关键创新:该方法最重要的创新点在于其系统性和可控性。通过HIP,研究人员可以有目的地触发LLM的幻觉,并通过HQP对幻觉进行量化评估。这为研究LLM的幻觉机制提供了一种新的途径。与现有方法相比,该方法更加灵活,可以应用于不同的LLM和不同的幻觉类型。

关键设计:HIP的关键设计在于选择语义上遥远但又具有一定关联性的概念,并将它们以一种误导性的方式融合在一起。例如,将“元素周期表”和“塔罗牌占卜”结合。HQP的关键设计在于设计合理的评估指标,包括可信度、置信度和连贯性。这些指标可以客观地反映LLM输出的真实性和合理性。具体实现中,可以使用不同的LLM作为HQP,对目标LLM的输出进行评估。

📊 实验亮点

实验结果表明,HIP能够有效地诱导LLM产生幻觉,且不同类型的LLM对HIP的反应不同。面向推理的LLM与通用LLM相比,在某些情况下表现出更强的幻觉抵抗能力。该研究提供了一个可复现的测试平台,为进一步研究LLM的幻觉现象奠定了基础。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的可靠性,尤其是在医疗、法律等对事实准确性要求高的领域。通过该框架,可以系统地测试LLM的幻觉脆弱性,并开发相应的缓解策略,从而提高LLM在实际应用中的可信度。

📄 摘要(原文)

Hallucinations in large language models (LLMs) present a growing challenge across real-world applications, from healthcare to law, where factual reliability is essential. Despite advances in alignment and instruction tuning, LLMs can still generate outputs that are fluent yet fundamentally untrue. Understanding the cognitive dynamics that underlie these hallucinations remains an open problem. In this study, we propose a prompt-based framework to systematically trigger and quantify hallucination: a Hallucination-Inducing Prompt (HIP), which synthetically fuses semantically distant concepts (e.g., periodic table of elements and tarot divination) in a misleading way, and a Hallucination Quantifying Prompt (HQP), which scores the plausibility, confidence, and coherence of the output. Controlled experiments across multiple LLMs revealed that HIPs consistently produced less coherent and more hallucinated responses than their null-fusion controls. These effects varied across models, with reasoning-oriented LLMs showing distinct profiles from general-purpose ones. Our framework provides a reproducible testbed for studying hallucination vulnerability, and opens the door to developing safer, more introspective LLMs that can detect and self-regulate the onset of conceptual instability.