Retrieval and Multi-Hop Reasoning in 1M-Token Context Windows: Evaluating LLMs on Classical Chinese Text
作者: Eric H. C. Chow
分类: cs.AI
发布日期: 2026-05-04
💡 一句话要点
评估百万Token上下文窗口下LLM在古文检索与多跳推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文学习 大语言模型 检索 多跳推理 古文 性能评估 上下文窗口 知识库问答
📋 核心要点
- 现有大语言模型长文本处理能力评估不足,尤其是在需要复杂推理的场景下。
- 通过在百万token上下文窗口中进行单针检索和多跳推理,评估模型对长文本的理解和推理能力。
- 实验发现,单针检索问题已基本解决,但多跳推理性能存在显著差异,表明上下文窗口长度并非唯一决定因素。
📝 摘要(中文)
本文评估了五个前沿大语言模型在百万token上下文窗口下的长上下文检索和推理能力,使用古文语料库进行测试。研究包含两个互补的实验。实验一测量了在100万token输入下的单针检索能力,在三个深度植入三个传记“针”,并使用真实(与训练先验一致)和修改过的(与训练先验矛盾)变体,以区分真正的上下文检索和对记忆训练数据的依赖。实验二旨在探究当检索需要中间推理时,长上下文能力是否会下降,测量了跨三个上下文层级(256K、512K和1M token)的三跳链式遍历。结果表明,对于最强的模型(Gemini 3.1 Pro、Claude Opus 4.7和GPT-5.5),1M token下的单针检索基本上已经解决,准确率达到100%。但多跳性能揭示了三种不同的衰减特征:稳定模式(Gemini Pro、Claude)在512K时保持80%以上的准确率,在1M时略有下降;晚悬崖模式(GPT-5.5、Qwen3.6-plus)在512K到1M之间急剧下降;以及平滑下降模式(DeepSeek V4 Pro)在整个范围内逐渐衰减。研究结果表明,标称上下文窗口长度不能很好地代表可用的长上下文多跳能力,并且当前1M上下文旗舰模型之间最明显的区别是512K到1M的过渡。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在处理超长上下文(高达100万token)时的检索和多跳推理能力。现有方法通常只关注上下文窗口大小,而忽略了模型在长上下文中进行复杂推理的能力。此外,模型可能依赖于记忆的训练数据,而非真正的上下文学习,这使得评估更加复杂。
核心思路:论文的核心思路是通过设计特定的检索和推理任务,来区分模型是真正理解了长上下文,还是仅仅依赖于记忆。通过在长上下文中插入“针”(关键信息),并设计需要多步推理才能找到答案的问题,来评估模型的性能。同时,使用真实和修改过的“针”来区分上下文学习和记忆。
技术框架:论文采用了两个主要的测试:单针检索和多跳推理。单针检索测试评估模型在100万token上下文中找到特定信息的能力。多跳推理测试评估模型在256K、512K和1M token上下文中进行三跳链式推理的能力。每个测试都包含多个样本,并使用准确率作为评估指标。
关键创新:该论文的关键创新在于设计了专门用于评估长上下文LLM的检索和多跳推理能力的测试。通过控制“针”的真实性和深度,以及设计需要多步推理的问题,可以更准确地评估模型是否真正理解了长上下文。此外,论文还揭示了不同模型在长上下文处理能力上的差异,并提出了“稳定”、“晚悬崖”和“平滑下降”三种不同的衰减模式。
关键设计:在单针检索测试中,论文在1M token的输入中插入三个传记“针”,分别位于不同的深度。每个“针”都有真实和修改过的版本,用于区分上下文学习和记忆。在多跳推理测试中,论文设计了需要三步推理才能找到答案的问题,并评估模型在不同上下文长度下的准确率。具体而言,模型需要从一个文档中找到一个实体,然后根据该实体在另一个文档中找到另一个实体,最后根据第二个实体在第三个文档中找到答案。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Gemini 3.1 Pro、Claude Opus 4.7和GPT-5.5在1M token下的单针检索准确率达到100%。然而,在多跳推理任务中,不同模型表现出显著差异,Gemini Pro和Claude在512K token时保持80%以上的准确率,而GPT-5.5和Qwen3.6-plus在512K到1M之间急剧下降。
🎯 应用场景
该研究成果可应用于提升LLM在处理长文档、知识库问答、复杂推理等任务中的性能。例如,在法律、金融等领域,需要处理大量文档并进行多步推理,该研究可以帮助选择和优化更适合这些场景的LLM,并指导模型架构设计。
📄 摘要(原文)
We evaluate the long-context retrieval and reasoning capabilities of five frontier large language models with advertised 1M-token context windows on a classical Chinese corpus. Two complementary studies are reported. Test 1 measures single-needle retrieval at 1M tokens of input, with three biographical needles planted at three depths and pairs of real (training-prior-consistent) and altered (training-prior-contradicting) variants to separate genuine in-context retrieval from reliance on memorised training data. Test 2, a follow-up designed to probe whether long-context capability degrades when retrieval requires intermediate reasoning, measures three-hop chain traversal across three context tiers (256K, 512K, and 1M tokens). We find that single-needle retrieval at 1M is essentially solved for the strongest models - Gemini 3.1 Pro, Claude Opus 4.7, and GPT-5.5 each achieve 100% - but that multi-hop performance reveals three distinct decay signatures: a stable regime (Gemini Pro, Claude) maintaining greater than 80% accuracy through 512K with modest degradation at 1M; a late-cliff regime (GPT-5.5, Qwen3.6-plus) collapsing sharply between 512K and 1M; and a smooth-decline regime (DeepSeek V4 Pro) decaying gradually across the entire range. The findings suggest that nominal context-window length is a poor proxy for usable long-context multi-hop capability, and that the sharpest discriminator between current 1M-context flagships is the 512K-to-1M transition.