"Lost-in-the-Later": Framework for Quantifying Contextual Grounding in Large Language Models

📄 arXiv: 2507.05424v1 📥 PDF

作者: Yufei Tao, Adam Hiatt, Rahul Seetharaman, Ameeta Agrawal

分类: cs.CL, cs.AI

发布日期: 2025-07-07


💡 一句话要点

提出CoPE框架,揭示LLM在上下文理解中存在的“后置信息丢失”现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 上下文理解 知识整合 后置信息丢失 评估框架 提示工程 自然语言处理

📋 核心要点

  1. 现有LLM在整合上下文知识和参数知识时,优先级排序机制尚不明确,存在信息利用不充分的问题。
  2. 论文提出CoPE评估框架,用于系统测量LLM的上下文知识和参数知识,并分析其信息整合方式。
  3. 实验揭示了LLM存在的“后置信息丢失”现象,并设计了基于提示的方法来改善上下文利用。

📝 摘要(中文)

大型语言模型(LLM)能够利用上下文知识和参数知识,但它们如何优先排序和整合这些知识来源仍未得到充分探索。我们提出了CoPE,这是一个新颖的评估框架,用于系统地测量跨模型和语言的上下文知识(CK)和参数知识(PK)。通过使用我们的英语、西班牙语和丹麦语MultiWikiAtomic数据集,我们分析了大型语言模型(LLM)如何在开放式问答中整合上下文、优先排序信息以及整合参数知识。我们的分析揭示了一种我们称之为“后置信息丢失”的现象,即LLM倾向于忽略或降低上下文中稍后出现的信息的优先级,揭示了一种影响上下文接地的强烈的位置偏差。我们进一步发现,推理模型以及使用思维链(CoT)提示的非推理模型,比没有CoT的非推理模型更少地使用上下文,并且未能减轻后置信息丢失效应。特别是,CoT提示会导致更低的回忆率和更短的响应,从而导致上下文接地降级。基于这些见解,我们设计了基于提示的方法来有效地利用输入上下文。将CoPE应用于摘要的案例研究表明,CK知情的提示可以提高事实接地并减少幻觉。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在理解和利用上下文信息时存在的问题,特别是模型倾向于忽略或降低上下文中后出现的信息的优先级,即“后置信息丢失”现象。现有方法未能充分探索LLM如何整合上下文知识和参数知识,以及如何有效地利用上下文信息进行推理和问答。

核心思路:论文的核心思路是构建一个评估框架CoPE,通过系统地测量LLM的上下文知识(CK)和参数知识(PK),来分析模型在不同语言和任务中如何整合上下文信息。通过分析,揭示LLM在利用上下文信息时存在的偏差和不足,并基于这些发现设计改进的提示方法。

技术框架:CoPE框架主要包含以下几个部分:1) MultiWikiAtomic数据集:包含英语、西班牙语和丹麦语的数据,用于评估LLM的上下文知识和参数知识。2) 评估指标:用于量化LLM在开放式问答任务中的上下文知识利用情况,包括回忆率、响应长度等。3) 分析方法:用于分析LLM在不同提示策略下的表现,例如思维链(CoT)提示。4) 改进方法:基于分析结果,设计基于提示的方法来改善LLM对上下文信息的利用。

关键创新:论文的关键创新在于:1) 提出了CoPE评估框架,能够系统地测量LLM的上下文知识和参数知识。2) 揭示了LLM存在的“后置信息丢失”现象,即模型倾向于忽略或降低上下文中后出现的信息的优先级。3) 基于分析结果,设计了改进的提示方法,能够有效地利用输入上下文,提高LLM的性能。与现有方法相比,CoPE框架能够更全面地评估LLM的上下文理解能力,并为改进LLM的性能提供指导。

关键设计:论文的关键设计包括:1) MultiWikiAtomic数据集的构建,确保数据集能够覆盖不同语言和领域,并包含足够的上下文信息。2) 评估指标的选择,确保指标能够准确地反映LLM的上下文知识利用情况。3) 提示策略的设计,包括思维链(CoT)提示等,用于分析不同提示策略对LLM性能的影响。4) 改进的提示方法的设计,基于对“后置信息丢失”现象的分析,设计能够有效利用输入上下文的提示方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM存在“后置信息丢失”现象,且推理模型和使用CoT提示的非推理模型比没有CoT的非推理模型更少地使用上下文。CoT提示会导致更低的回忆率和更短的响应,从而降低上下文接地。通过CK知情的提示,可以提高事实接地并减少幻觉。

🎯 应用场景

该研究成果可应用于提升大型语言模型在各种自然语言处理任务中的性能,例如问答系统、文本摘要、机器翻译等。通过改善LLM对上下文信息的利用,可以提高模型的准确性和可靠性,减少幻觉现象。此外,该研究还可以帮助开发者更好地理解LLM的工作机制,从而设计更有效的模型和提示策略。

📄 摘要(原文)

Large language models are capable of leveraging both contextual and parametric knowledge but how they prioritize and integrate these sources remains underexplored. We introduce CoPE, a novel evaluation framework that systematically measures contextual knowledge (CK) and parametric knowledge (PK) across models and languages. Using our MultiWikiAtomic dataset in English, Spanish, and Danish, we analyze how large language models (LLMs) integrate context, prioritize information, and incorporate PK in open-ended question answering. Our analysis uncovers a phenomenon we call lost-in-the-later, where LLMs tend to overlook or deprioritize information that appears later in a given context, revealing a strong positional bias that affects contextual grounding. We further find that reasoning models, as well as non-reasoning models prompted with chain-of-thought (CoT), use context even less than non-reasoning models without CoT and fail to mitigate the lost-in-the-later effect. CoT prompting, in particular, results in lower recall and shorter responses, leading to degraded contextual grounding. Based on these insights, we design prompt-based methods to effectively leverage input context. A case study applying CoPE to summarization demonstrates that CK-informed prompting improves factual grounding and reduces hallucination.