Not All Needles Are Found: How Fact Distribution and Don't Make It Up Prompts Shape Literal Extraction, Logical Inference, and Hallucination Risks in Long-Context LLMs

📄 arXiv: 2601.02023v1 📥 PDF

作者: Amirali Ebrahimzadeh, Seyyed M. Salili

分类: cs.CL, cs.AI

发布日期: 2026-01-05

备注: 25 pages, 8 figures, 3 tables


💡 一句话要点

研究长文本LLM在事实分布和反幻觉提示下的信息抽取、逻辑推理及幻觉风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本LLM 信息抽取 逻辑推理 幻觉风险 上下文学习

📋 核心要点

  1. 现有长文本LLM在信息抽取和推理方面存在可靠性问题,性能受上下文长度和信息分布影响。
  2. 论文研究事实放置、语料库级事实分布和反幻觉提示对模型行为的影响,旨在提升长文本处理能力。
  3. 通过扩展的“大海捞针”基准测试,评估了四个模型在字面抽取、逻辑推理和幻觉风险方面的表现。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地支持超长输入上下文。然而,它们在规模化信息抽取和推理方面的可靠性仍不清楚。性能随上下文长度变化,并与信息在真实语料库中的分布方式密切相关。基于这些观察,我们研究了事实放置、语料库级事实分布以及“不要编造”提示如何影响模型行为。我们引入了一个扩展的“大海捞针”基准测试,涵盖四个生产规模模型:Gemini-2.5-flash、ChatGPT-5-mini、Claude-4.5-haiku和Deepseek-v3.2-chat。与先前工作不同,我们分别评估字面抽取、逻辑推理和幻觉风险。我们的研究考虑了位置效应和证据在长上下文中的真实分布,以及明确禁止捏造的提示。我们发现,更长的上下文本身并不能保证更好的性能,当相关证据被稀释或广泛分散时,反而可能有害。不同模型之间的性能差异很大:一些模型在真实条件下表现出严重的性能下降,而另一些模型在更长的上下文长度下保持更强的鲁棒性。反幻觉(AH)指令可能使某些模型过于保守,从而显著降低字面抽取和逻辑推理的准确性。虽然我们没有直接比较检索增强生成(RAG)和缓存增强生成(CAG),但我们的结果表明,许多失败源于无效的上下文利用。即使相关信息存在,模型也常常难以识别和优先处理。这些发现具有直接的实际意义,因为企业工作流程越来越多地涉及将大量未经筛选的文档粘贴到LLM提示中。因此,有效的上下文长度和模型对长上下文的特定鲁棒性对于在研究和商业中可靠地部署LLM至关重要。

🔬 方法详解

问题定义:论文旨在解决长文本LLM在处理长上下文时,信息抽取、逻辑推理能力下降以及产生幻觉的问题。现有方法在真实场景下,由于信息稀释和分布不均,导致模型难以有效利用上下文信息,并且反幻觉提示可能过度抑制模型的生成能力。

核心思路:论文的核心思路是系统性地研究事实在上下文中的位置、事实的分布情况以及反幻觉提示对模型性能的影响。通过控制这些变量,分析模型在字面抽取、逻辑推理和避免幻觉方面的表现,从而揭示长文本LLM的局限性,并为改进模型提供指导。

技术框架:论文采用“大海捞针”基准测试,将目标信息(“针”)插入到长文本(“草堆”)中,然后评估模型能否准确提取信息并进行推理。实验框架包括:1) 控制“针”在上下文中的位置;2) 模拟真实语料库中事实的分布情况;3) 使用反幻觉提示;4) 评估字面抽取、逻辑推理和幻觉风险。

关键创新:论文的创新点在于:1) 区分了字面抽取、逻辑推理和幻觉风险,并分别进行评估;2) 考虑了事实在长上下文中的真实分布情况,更贴近实际应用场景;3) 系统性地研究了反幻觉提示对模型性能的影响,发现其可能导致模型过于保守。

关键设计:论文的关键设计包括:1) 设计了多种事实放置策略,例如将“针”放置在开头、中间、结尾以及随机位置;2) 模拟了不同类型的事实分布,例如均匀分布和长尾分布;3) 使用了明确的反幻觉提示,例如“不要编造”;4) 采用了多种评估指标,例如准确率、召回率和F1值。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,长上下文并不总是能带来更好的性能,当相关证据被稀释或分散时,性能反而会下降。不同模型在长上下文下的鲁棒性差异很大。反幻觉提示可能导致模型过于保守,降低字面抽取和逻辑推理的准确性。例如,某些模型在真实条件下表现出严重的性能下降。

🎯 应用场景

该研究成果可应用于企业级知识库问答、文档摘要、信息检索等领域。通过优化LLM对长文本上下文的利用,可以提高信息抽取的准确性和可靠性,降低幻觉风险,从而提升企业工作效率和决策质量。未来的研究可以进一步探索更有效的上下文建模方法和反幻觉策略。

📄 摘要(原文)

Large language models (LLMs) increasingly support very long input contexts. Yet it remains unclear how reliably they extract and infer information at scale. Performance varies with context length and strongly interacts with how information is distributed in real-world corpora. Motivated by these observations, we study how fact placement, corpus-level fact distributions, and Don't Make It Up prompts influence model behavior. We introduce an extended needle-in-a-haystack benchmark across four production-scale models: Gemini-2.5-flash, ChatGPT-5-mini, Claude-4.5-haiku, and Deepseek-v3.2-chat. Unlike prior work, we separately evaluate literal extraction, logical inference, and hallucination risk. Our study considers both positional effects and realistic distributions of evidence across long contexts, as well as prompts that explicitly discourage fabrication. We find that longer contexts alone do not guarantee better performance and can be detrimental when relevant evidence is diluted or widely dispersed. Performance varies substantially across models: some show severe degradation under realistic conditions, while others remain more robust at longer context lengths. Anti-hallucination (AH) instructions can make some models overly conservative, sharply reducing accuracy in literal extraction and logical inference. While we do not directly compare retrieval-augmented generation (RAG) and cache-augmented generation (CAG), our results suggest many failures stem from ineffective context utilization. Models often struggle to identify and prioritize relevant information even when it is present. These findings have direct practical implications, as enterprise workflows increasingly involve pasting large volumes of unfiltered documents into LLM prompts. Effective context length and model-specific robustness to long contexts are therefore critical for reliable LLM deployment in research and business.