Retrieval and Multi-Hop Reasoning in 1M-Token Context Windows: Evaluating LLMs on Classical Chinese Text

作者: Eric H. C. Chow

分类: cs.AI

发布日期: 2026-05-04

💡 一句话要点

评估百万Token上下文窗口下LLM在古文检索与多跳推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 长上下文学习 大语言模型 检索 多跳推理 古文 性能评估 上下文窗口 知识库问答

📋 核心要点

现有大语言模型长文本处理能力评估不足，尤其是在需要复杂推理的场景下。
通过在百万token上下文窗口中进行单针检索和多跳推理，评估模型对长文本的理解和推理能力。
实验发现，单针检索问题已基本解决，但多跳推理性能存在显著差异，表明上下文窗口长度并非唯一决定因素。

📝 摘要（中文）

本文评估了五个前沿大语言模型在百万token上下文窗口下的长上下文检索和推理能力，使用古文语料库进行测试。研究包含两个互补的实验。实验一测量了在100万token输入下的单针检索能力，在三个深度植入三个传记“针”，并使用真实（与训练先验一致）和修改过的（与训练先验矛盾）变体，以区分真正的上下文检索和对记忆训练数据的依赖。实验二旨在探究当检索需要中间推理时，长上下文能力是否会下降，测量了跨三个上下文层级（256K、512K和1M token）的三跳链式遍历。结果表明，对于最强的模型（Gemini 3.1 Pro、Claude Opus 4.7和GPT-5.5），1M token下的单针检索基本上已经解决，准确率达到100%。但多跳性能揭示了三种不同的衰减特征：稳定模式（Gemini Pro、Claude）在512K时保持80%以上的准确率，在1M时略有下降；晚悬崖模式（GPT-5.5、Qwen3.6-plus）在512K到1M之间急剧下降；以及平滑下降模式（DeepSeek V4 Pro）在整个范围内逐渐衰减。研究结果表明，标称上下文窗口长度不能很好地代表可用的长上下文多跳能力，并且当前1M上下文旗舰模型之间最明显的区别是512K到1M的过渡。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在处理超长上下文（高达100万token）时的检索和多跳推理能力。现有方法通常只关注上下文窗口大小，而忽略了模型在长上下文中进行复杂推理的能力。此外，模型可能依赖于记忆的训练数据，而非真正的上下文学习，这使得评估更加复杂。

核心思路：论文的核心思路是通过设计特定的检索和推理任务，来区分模型是真正理解了长上下文，还是仅仅依赖于记忆。通过在长上下文中插入“针”（关键信息），并设计需要多步推理才能找到答案的问题，来评估模型的性能。同时，使用真实和修改过的“针”来区分上下文学习和记忆。

技术框架：论文采用了两个主要的测试：单针检索和多跳推理。单针检索测试评估模型在100万token上下文中找到特定信息的能力。多跳推理测试评估模型在256K、512K和1M token上下文中进行三跳链式推理的能力。每个测试都包含多个样本，并使用准确率作为评估指标。

关键创新：该论文的关键创新在于设计了专门用于评估长上下文LLM的检索和多跳推理能力的测试。通过控制“针”的真实性和深度，以及设计需要多步推理的问题，可以更准确地评估模型是否真正理解了长上下文。此外，论文还揭示了不同模型在长上下文处理能力上的差异，并提出了“稳定”、“晚悬崖”和“平滑下降”三种不同的衰减模式。

关键设计：在单针检索测试中，论文在1M token的输入中插入三个传记“针”，分别位于不同的深度。每个“针”都有真实和修改过的版本，用于区分上下文学习和记忆。在多跳推理测试中，论文设计了需要三步推理才能找到答案的问题，并评估模型在不同上下文长度下的准确率。具体而言，模型需要从一个文档中找到一个实体，然后根据该实体在另一个文档中找到另一个实体，最后根据第二个实体在第三个文档中找到答案。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Gemini 3.1 Pro、Claude Opus 4.7和GPT-5.5在1M token下的单针检索准确率达到100%。然而，在多跳推理任务中，不同模型表现出显著差异，Gemini Pro和Claude在512K token时保持80%以上的准确率，而GPT-5.5和Qwen3.6-plus在512K到1M之间急剧下降。

🎯 应用场景

该研究成果可应用于提升LLM在处理长文档、知识库问答、复杂推理等任务中的性能。例如，在法律、金融等领域，需要处理大量文档并进行多步推理，该研究可以帮助选择和优化更适合这些场景的LLM，并指导模型架构设计。

📄 摘要（原文）

We evaluate the long-context retrieval and reasoning capabilities of five frontier large language models with advertised 1M-token context windows on a classical Chinese corpus. Two complementary studies are reported. Test 1 measures single-needle retrieval at 1M tokens of input, with three biographical needles planted at three depths and pairs of real (training-prior-consistent) and altered (training-prior-contradicting) variants to separate genuine in-context retrieval from reliance on memorised training data. Test 2, a follow-up designed to probe whether long-context capability degrades when retrieval requires intermediate reasoning, measures three-hop chain traversal across three context tiers (256K, 512K, and 1M tokens). We find that single-needle retrieval at 1M is essentially solved for the strongest models - Gemini 3.1 Pro, Claude Opus 4.7, and GPT-5.5 each achieve 100% - but that multi-hop performance reveals three distinct decay signatures: a stable regime (Gemini Pro, Claude) maintaining greater than 80% accuracy through 512K with modest degradation at 1M; a late-cliff regime (GPT-5.5, Qwen3.6-plus) collapsing sharply between 512K and 1M; and a smooth-decline regime (DeepSeek V4 Pro) decaying gradually across the entire range. The findings suggest that nominal context-window length is a poor proxy for usable long-context multi-hop capability, and that the sharpest discriminator between current 1M-context flagships is the 512K-to-1M transition.

Retrieval and Multi-Hop Reasoning in 1M-Token Context Windows: Evaluating LLMs on Classical Chinese Text

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理