NoLiMa: Long-Context Evaluation Beyond Literal Matching

作者: Ali Modarressi, Hanieh Deilamsalehy, Franck Dernoncourt, Trung Bui, Ryan A. Rossi, Seunghyun Yoon, Hinrich Schütze

分类: cs.CL

发布日期: 2025-02-07 (更新: 2025-07-09)

备注: Accepted at ICML 2025

🔗 代码/项目: GITHUB

💡 一句话要点

NoLiMa：提出超越字面匹配的长文本评估基准，揭示LLM在长程推理中的局限性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长文本评估 大型语言模型 推理能力 大海捞针测试 低词汇重叠

📋 核心要点

现有长文本评估方法依赖字面匹配，模型易于利用字面信息作弊，无法真实反映长程推理能力。
NoLiMa基准通过构建低词汇重叠的needle集合，迫使模型进行潜在关联推理，从而更准确评估长文本理解能力。
实验表明，即使是GPT-4o等先进模型，在长文本中性能也显著下降，揭示了现有LLM在长程推理上的局限性。

📝 摘要（中文）

当前大型语言模型(LLMs)支持128K到1M tokens的长上下文。一种流行的评估方法是“大海捞针”(NIAH)测试，即从“干草堆”(长而不相关的上下文)中检索“针”(相关信息)。该方法的扩展包括增加干扰项、事实链和上下文推理。然而，在这些基准测试中，模型可以利用needle和haystack之间现有的字面匹配来简化任务。为了解决这个问题，我们引入了NoLiMa，这是一个扩展NIAH的基准，它经过精心设计的needle集合，问题和needle之间的词汇重叠最小，需要模型推断潜在的关联才能在haystack中找到needle。我们评估了13个声称支持至少128K tokens上下文的流行LLM。虽然它们在短上下文(<1K)中表现良好，但随着上下文长度的增加，性能显著下降。例如，在32K时，11个模型的性能下降到其强大的短长度基线的50%以下。即使是表现最佳的例外之一GPT-4o，也经历了从几乎完美的99.3%基线降至69.7%的下降。我们的分析表明，这些下降源于注意力机制在较长上下文中面临的难度增加，当不存在字面匹配时，检索相关信息变得更加困难。即使是经过推理能力或CoT提示增强的模型，也难以在长上下文中保持性能。我们公开发布数据集和评估代码。

🔬 方法详解

问题定义：现有的大型语言模型长文本评估方法，如“大海捞针”（NIAH）测试，主要依赖于needle和haystack之间的字面匹配。这意味着模型可以通过简单的关键词匹配来找到答案，而不需要真正理解上下文和进行推理。这种方法无法有效评估模型在长文本中进行复杂推理和信息检索的能力，尤其是在需要理解潜在关联的情况下。现有方法的痛点在于高估了模型在长文本上的真实性能。

核心思路：NoLiMa的核心思路是创建一个needle集合，其中问题和needle之间的词汇重叠最小化。这样，模型就不能简单地通过字面匹配来找到答案，而必须理解问题和needle之间的潜在关联，进行推理才能找到正确答案。这种设计迫使模型真正利用其长文本理解能力，从而更准确地评估其性能。

技术框架：NoLiMa基准测试沿用了NIAH的基本框架，但关键在于needle集合的设计。该框架包含以下主要阶段：1) 构建包含大量不相关信息的haystack；2) 设计与haystack相关的question，这些question需要从特定的needle中获取答案；3) 创建needle集合，确保question和needle之间只有极少的词汇重叠；4) 将needle插入到haystack的不同位置；5) 使用LLM回答question，并评估其准确性。

关键创新：NoLiMa最重要的技术创新点在于其needle集合的设计，它与传统的NIAH测试方法形成了鲜明对比。NoLiMa的needle集合经过精心设计，确保问题和needle之间只有极少的词汇重叠，从而避免了模型通过简单的字面匹配来作弊。这种设计迫使模型进行潜在关联推理，从而更准确地评估其长文本理解能力。与现有方法的本质区别在于，NoLiMa关注的是模型在缺乏字面匹配的情况下，能否理解上下文并进行推理。

关键设计：NoLiMa的关键设计在于如何构建低词汇重叠的needle集合。具体方法未知，但可以推测可能使用了语义相似度计算、同义词替换、释义等技术，以确保问题和needle在语义上相关，但在词汇上差异很大。此外，needle在haystack中的位置也是一个关键参数，需要进行合理的分布，以避免模型通过位置信息来作弊。具体的损失函数和网络结构与评估的LLM本身相关，NoLiMa主要关注的是评估指标，即模型回答问题的准确率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是声称支持长上下文的先进LLM，如GPT-4o，在NoLiMa基准测试中也表现出显著的性能下降。例如，GPT-4o在短上下文(<1K)中达到了99.3%的准确率，但在32K上下文长度下，准确率下降到69.7%。其他模型，如Llama 3和Gemini 1.5 Pro，在长上下文中的性能下降更为明显，表明现有LLM在长程推理方面仍存在很大的改进空间。

🎯 应用场景

NoLiMa基准测试可用于评估和改进大型语言模型在长文本理解和推理方面的能力。它可以帮助研究人员更好地了解现有模型的局限性，并开发更有效的模型架构和训练方法。此外，该基准测试还可以应用于需要处理长文本信息的各种实际应用中，例如文档摘要、信息检索、问答系统和知识图谱构建。

📄 摘要（原文）

Recent large language models (LLMs) support long contexts ranging from 128K to 1M tokens. A popular method for evaluating these capabilities is the needle-in-a-haystack (NIAH) test, which involves retrieving a "needle" (relevant information) from a "haystack" (long irrelevant context). Extensions of this approach include increasing distractors, fact chaining, and in-context reasoning. However, in these benchmarks, models can exploit existing literal matches between the needle and haystack to simplify the task. To address this, we introduce NoLiMa, a benchmark extending NIAH with a carefully designed needle set, where questions and needles have minimal lexical overlap, requiring models to infer latent associations to locate the needle within the haystack. We evaluate 13 popular LLMs that claim to support contexts of at least 128K tokens. While they perform well in short contexts (<1K), performance degrades significantly as context length increases. At 32K, for instance, 11 models drop below 50% of their strong short-length baselines. Even GPT-4o, one of the top-performing exceptions, experiences a reduction from an almost-perfect baseline of 99.3% to 69.7%. Our analysis suggests these declines stem from the increased difficulty the attention mechanism faces in longer contexts when literal matches are absent, making it harder to retrieve relevant information. Even models enhanced with reasoning capabilities or CoT prompting struggle to maintain performance in long contexts. We publicly release the dataset and evaluation code at https://github.com/adobe-research/NoLiMa.

NoLiMa: Long-Context Evaluation Beyond Literal Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理