SagaScale: A Realistic, Scalable, and High-Quality Long-Context Benchmark Built from Full-Length Novels

📄 arXiv: 2601.09723v1 📥 PDF

作者: Guancheng Du, Yong Hu, Wenqing Wang, Yaming Yang, Jiaheng Gao

分类: cs.CL, cs.AI

发布日期: 2025-12-27


💡 一句话要点

SagaScale:基于完整小说的真实、可扩展、高质量长文本基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长文本理解 大型语言模型 问答系统 知识推理 基准测试 小说文本 RAG

📋 核心要点

  1. 现有长文本基准在任务真实性、数据规模和质量上存在不足,难以有效评估LLM在复杂文档理解方面的能力。
  2. SagaScale利用完整小说构建大规模双语长文本基准,并采用外部知识辅助生成复杂问答对,提升基准的真实性和挑战性。
  3. 实验表明,直接提供完整上下文给LLM效果最佳,但多数模型仍难以处理长文本,Agentic RAG能有效改善朴素RAG的检索瓶颈。

📝 摘要(中文)

大型语言模型(LLMs)取得了显著进展,但理解长而复杂的文档仍然具有挑战性。目前已提出了许多长文本基准,但它们面临着任务真实性、数据可扩展性和数据质量等多重限制。为此,我们推出了SagaScale,这是一个基于完整小说的真实、可扩展且高质量的长文本基准。整个基准使用自动数据收集流程构建,该流程利用外部资源(例如,维基百科页面)来整理问答对。关键在于,这些外部资源仅用于基准构建,而不用于评估期间,这使得LLM能够整理超出其在评估期间能够回答的复杂问题。SagaScale也是双语的,并提供迄今为止最长的上下文长度,英文小说的平均token数超过250K,中文小说的平均token数超过320K。我们对12个前沿LLM和三种长文本方法(朴素RAG、Agentic RAG和长文本)的评估产生了关键见解,包括:(1)直接向LLM提供完整上下文可以大大优于其他方法;(2)大多数LLM仍然难以处理冗长的上下文,但Gemini-2.5-Pro是一个例外;(3)Agentic RAG有效地解决了朴素RAG中的检索瓶颈。最后,我们公开发布SagaScale基准和我们的数据收集代码库,以促进未来的研究。

🔬 方法详解

问题定义:现有长文本基准存在任务不够真实、数据规模有限、数据质量不高等问题。这些问题导致现有基准无法充分评估大型语言模型在理解长而复杂的文档方面的能力,尤其是在需要外部知识推理的情况下。现有方法的痛点在于难以构建既真实又具有挑战性的长文本问答数据集。

核心思路:SagaScale的核心思路是利用完整的小说作为数据来源,保证了数据的真实性和复杂性。同时,利用外部知识(如维基百科)辅助生成问答对,增加了问题的难度和推理深度。这种方式使得模型在评估时无法直接从上下文中找到答案,需要进行更复杂的推理。

技术框架:SagaScale的构建流程主要包括以下几个阶段:1) 数据收集:从公开渠道收集完整的小说文本,包括英文和中文小说。2) 问答对生成:利用外部知识资源(如维基百科)自动生成与小说内容相关的问答对。关键在于,生成问题时可以利用外部知识,但在评估时模型无法访问这些知识。3) 数据清洗和验证:对生成的数据进行清洗和验证,确保数据的质量和一致性。4) 基准发布:公开发布SagaScale基准和数据收集代码。

关键创新:SagaScale最重要的创新点在于其数据生成方式。它利用外部知识来生成复杂的问题,这些问题需要模型进行推理和理解才能回答,而不仅仅是简单的信息检索。与现有方法相比,SagaScale更注重评估模型在真实场景下的长文本理解能力。

关键设计:SagaScale的关键设计包括:1) 使用完整的小说作为上下文,保证了上下文的长度和复杂性。2) 利用外部知识生成问答对,增加了问题的难度。3) 提供双语版本(英文和中文),方便不同语言的模型进行评估。4) 评估了多种长文本处理方法,包括朴素RAG、Agentic RAG和直接输入完整上下文的方法。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,直接将完整上下文提供给LLM通常能获得最佳性能,但大多数LLM在处理长文本时仍面临挑战。Gemini-2.5-Pro在长文本处理方面表现突出。此外,Agentic RAG通过引入智能体机制,有效解决了朴素RAG中的检索瓶颈,提升了问答准确率。SagaScale为长文本理解研究提供了新的评估标准。

🎯 应用场景

SagaScale基准的潜在应用领域包括:提升大型语言模型在长文本理解、知识推理和复杂问答方面的能力。该基准可用于评估和比较不同模型的性能,推动长文本处理技术的发展,并最终应用于信息检索、智能客服、文档摘要等实际场景,提升相关应用的智能化水平。

📄 摘要(原文)

Large Language Models (LLMs) have shown significant progress, but understanding long and complex documents remains challenging. Many long-context benchmarks have been proposed, but they face several limitations, including task realism, data scalability, and data quality. To this end, we introduce SagaScale, a realistic, scalable, and high-quality long-context benchmark built from full-length novels. The entire benchmark is constructed using an automated data collection pipeline that utilizes external resources (e.g., Wikipedia pages) to curate question-answer pairs. Critically, these external resources are provided only for benchmark construction and not during evaluation, which allows LLMs to curate complex questions that go beyond what they can answer during evaluation. SagaScale is also bilingual and offers the largest context length to date, with average token counts exceeding 250K for English novels and 320K for Chinese novels. Our evaluation across 12 frontier LLMs and three long-context methods -- Naïve RAG, Agentic RAG, and Long Context -- yields key insights, including: (1) Directly supplying the full context to the LLM can outperform other methods by a large margin; (2) Most LLMs still struggle with lengthy contexts, but Gemini-2.5-Pro stands out as an exception; and (3) Agentic RAG effectively addresses the retrieval bottleneck in Naïve RAG. Finally, we publicly release the SagaScale benchmark and our data collection codebase to facilitate future research.