Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

作者: Amanda Dsouza, Christopher Glaze, Changho Shin, Frederic Sala

分类: cs.CL, cs.AI

发布日期: 2024-07-04 (更新: 2024-07-14)

🔗 代码/项目: GITHUB

💡 一句话要点

提出SWiM评估框架与Medoid Voting推理方法，提升长文本语言模型中间信息利用率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本模型 上下文窗口 中间信息丢失 评估框架 推理时修正 Medoid Voting 语言模型评估

📋 核心要点

现有长文本语言模型在处理长上下文时，存在“中间信息丢失”问题，影响了模型在实际应用中的性能。
论文提出SWiM评估框架，用于更真实地评估长文本模型在长上下文推理中的性能表现。
论文提出Medoid Voting方法，通过随机排列上下文并选择medoid答案，有效缓解了“中间信息丢失”问题，提升了模型准确率。

📝 摘要（中文）

大型语言模型在实际应用中被广泛使用，通常需要处理大量的文档。长文本模型的能力是一个令人兴奋的进展，有些模型可以容纳超过200万个token。然而，这种长文本模型的能力在生产系统中仍然不确定，因此需要对它们在真实用例中的性能进行基准测试。我们提出了SWiM，一个评估框架，旨在解决标准测试的局限性。通过在八个长文本模型上测试该框架，我们发现即使是像GPT-4和Claude 3 Opus这样的强大模型，当信息出现在上下文窗口的中间位置时，性能也会下降（中间信息丢失效应）。此外，除了我们的基准测试，我们还提出了一种简单但有效的无训练方法，称为medoid voting，通过多次生成响应，每次随机排列上下文中的文档，并选择medoid答案，来帮助缓解这种效应。我们在单文档问答任务上评估了medoid voting，准确率提高了高达24%。我们的代码可在https://github.com/snorkel-ai/long-context-eval 获取。

🔬 方法详解

问题定义：论文旨在解决长文本语言模型在处理长上下文时出现的“中间信息丢失”问题。现有方法在评估长文本模型时，无法准确反映模型在实际应用中的性能，尤其是在处理需要从上下文中间位置提取信息的任务时，模型性能会显著下降。

核心思路：论文的核心思路是，首先，设计一个更贴近实际应用的评估框架SWiM，能够更准确地衡量模型在长上下文推理中的性能。其次，提出一种简单有效的推理时修正方法Medoid Voting，通过多次随机排列上下文，并选择最一致的答案，来缓解“中间信息丢失”问题。这样设计的目的是为了提高模型对上下文中间信息的利用率，从而提升整体性能。

技术框架：整体框架包含两个主要部分：SWiM评估框架和Medoid Voting推理方法。SWiM框架用于评估长文本模型的性能，特别是针对“中间信息丢失”问题。Medoid Voting方法则是在推理阶段，通过多次生成答案并选择medoid答案来提高准确率。具体流程是：1. 使用SWiM框架评估模型性能；2. 在推理时，对输入上下文进行多次随机排列；3. 模型对每次排列后的上下文生成答案；4. 选择所有答案的medoid作为最终答案。

关键创新：论文的关键创新在于：1. 提出了SWiM评估框架，该框架更贴近实际应用，能够更准确地评估长文本模型的性能，特别是针对“中间信息丢失”问题。2. 提出了Medoid Voting方法，该方法是一种简单有效的推理时修正方法，无需额外训练，即可显著提高模型对上下文中间信息的利用率。

关键设计：Medoid Voting方法的关键设计在于随机排列上下文的次数和medoid答案的选择方式。论文中提到，通过多次随机排列上下文，可以使模型在不同的上下文排列中提取信息，从而减少“中间信息丢失”的影响。Medoid答案的选择方式可以是选择出现频率最高的答案，或者选择与其他答案相似度最高的答案。具体参数设置和选择方式可能需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是像GPT-4和Claude 3 Opus这样的强大模型，在SWiM评估框架下也存在“中间信息丢失”问题。通过应用Medoid Voting方法，在单文档问答任务上，模型的准确率提高了高达24%。这表明Medoid Voting是一种简单有效的缓解“中间信息丢失”问题的方法。

🎯 应用场景

该研究成果可应用于需要处理大量文档的各种场景，例如法律文本分析、金融报告解读、医学文献检索等。通过提高长文本模型对上下文中间信息的利用率，可以提升信息抽取、问答、摘要等任务的性能，从而为用户提供更准确、更全面的信息服务。未来，该研究可以进一步扩展到多模态长文本处理，例如结合图像、视频等信息进行更复杂的推理。

📄 摘要（原文）

Large language models are prominently used in real-world applications, often tasked with reasoning over large volumes of documents. An exciting development in this space is models boasting extended context capabilities, with some accommodating over 2 million tokens. Such long context model capabilities remain uncertain in production systems, motivating the need to benchmark their performance on real world use cases. We address this challenge by proposing SWiM, an evaluation framework that addresses the limitations of standard tests. Testing the framework on eight long context models, we find that even strong models such as GPT-4 and Claude 3 Opus degrade in performance when information is present in the middle of the context window (lost-in-the-middle effect). Next, in addition to our benchmark, we propose medoid voting, a simple, but effective training-free approach that helps alleviate this effect, by generating responses a few times, each time randomly permuting documents in the context, and selecting the medoid answer. We evaluate medoid voting on single document QA tasks, achieving up to a 24% lift in accuracy. Our code is available at https://github.com/snorkel-ai/long-context-eval.

Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理