LongBench Pro: A More Realistic and Comprehensive Bilingual Long-Context Evaluation Benchmark
作者: Ziyang Chen, Xing Wu, Junlong Jia, Chaochen Gao, Qi Fu, Debing Zhang, Songlin Hu
分类: cs.CL, cs.AI
发布日期: 2026-01-06
💡 一句话要点
提出LongBench Pro,一个更真实全面的双语长文本评估基准,用于评估LLM的长文本理解能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本评估 大型语言模型 人机协作 双语基准 上下文理解 模型评估 自然语言处理 基准数据集
📋 核心要点
- 现有长文本评估基准在可扩展性和真实性之间存在权衡,合成数据缺乏真实性,人工标注成本高昂。
- 提出人机协作构建流程,利用LLM生成候选样本,专家验证和改进,降低标注成本并保证质量。
- LongBench Pro评估结果表明,长文本优化比参数扩展更重要,且模型有效上下文长度低于声明长度。
📝 摘要(中文)
大型语言模型(LLM)的上下文长度迅速扩展,超过了现有评估基准的能力。目前的benchmark通常在可扩展性和真实性之间进行权衡:合成任务不能代表真实世界的复杂性,而完全手动注释在扩展到极端长度和多样化场景时成本高昂。我们提出了LongBench Pro,这是一个更真实和全面的双语基准,包含1500个自然产生的长文本样本,涵盖英语和中文,跨越11个主要任务和25个次要任务,输入长度从8k到256k tokens。LongBench Pro支持细粒度分析,具有特定于任务的指标和上下文需求(完全与部分依赖)、长度(六个级别)和难度(由模型性能校准的四个级别)的多维分类。为了平衡质量和可扩展性,我们提出了一种人机协作构建流程:前沿LLM起草具有挑战性的问题和参考答案,以及设计原理和解决方案,以降低专家验证的成本。然后,专家严格验证正确性并改进有问题的情况。在LongBench Pro上评估46个广泛使用的长文本LLM,得出三个发现:(1)长文本优化比参数扩展更有助于长文本理解;(2)有效上下文长度通常短于声明的上下文长度,并且存在明显的跨语言错位;(3)“思考”范式主要帮助使用原生推理训练的模型,而混合思考设计提供了一种有希望的帕累托权衡。总之,LongBench Pro为推进长文本理解提供了一个强大的测试平台。
🔬 方法详解
问题定义:现有长文本评估基准存在不足,合成数据缺乏真实场景的复杂性,无法准确评估模型在真实场景下的长文本理解能力。完全人工标注成本高昂,难以扩展到超长文本和多样化任务。
核心思路:采用人机协作的方式构建基准数据集,利用LLM生成候选样本,降低人工成本,同时由专家进行验证和修改,保证数据质量。通过多维度分类,对模型在不同上下文需求、长度和难度下的表现进行细粒度分析。
技术框架:LongBench Pro的构建流程包含以下几个阶段:1) LLM生成候选问题和答案,并提供设计原理和解决方案;2) 专家验证候选样本的正确性,并进行修改和完善;3) 对数据集进行多维度分类,包括上下文需求(完全/部分依赖)、长度(六个级别)和难度(四个级别);4) 使用特定于任务的指标评估模型性能。
关键创新:人机协作构建流程是关键创新点,它结合了LLM的生成能力和专家的验证能力,在保证数据质量的同时,降低了人工成本,提高了可扩展性。此外,多维度分类能够对模型性能进行更细致的分析。
关键设计:LongBench Pro包含1500个样本,涵盖11个主要任务和25个次要任务,输入长度从8k到256k tokens。难度分级由模型性能校准,确保难度具有区分度。采用任务特定的评估指标,更准确地反映模型在不同任务上的表现。
🖼️ 关键图片
📊 实验亮点
LongBench Pro评估了46个LLM,结果表明长文本优化比参数扩展对长文本理解更重要。模型的有效上下文长度通常短于声明的上下文长度,且存在跨语言错位。此外,“思考”范式对原生推理模型有帮助,而混合思考设计提供了一种有希望的帕累托权衡。
🎯 应用场景
LongBench Pro可用于评估和比较不同LLM的长文本理解能力,指导模型优化和改进。它还可以用于研究长文本处理中的关键问题,例如上下文依赖、信息检索和推理。该基准的发布将促进长文本理解领域的发展,并推动LLM在需要处理长文本的实际应用中的应用,例如文档摘要、信息检索、问答系统等。
📄 摘要(原文)
The rapid expansion of context length in large language models (LLMs) has outpaced existing evaluation benchmarks. Current long-context benchmarks often trade off scalability and realism: synthetic tasks underrepresent real-world complexity, while fully manual annotation is costly to scale to extreme lengths and diverse scenarios. We present LongBench Pro, a more realistic and comprehensive bilingual benchmark of 1,500 naturally occurring long-context samples in English and Chinese spanning 11 primary tasks and 25 secondary tasks, with input lengths from 8k to 256k tokens. LongBench Pro supports fine-grained analysis with task-specific metrics and a multi-dimensional taxonomy of context requirement (full vs. partial dependency), length (six levels), and difficulty (four levels calibrated by model performance). To balance quality with scalability, we propose a Human-Model Collaborative Construction pipeline: frontier LLMs draft challenging questions and reference answers, along with design rationales and solution processes, to reduce the cost of expert verification. Experts then rigorously validate correctness and refine problematic cases. Evaluating 46 widely used long-context LLMs on LongBench Pro yields three findings: (1) long-context optimization contributes more to long-context comprehension than parameter scaling; (2) effective context length is typically shorter than the claimed context length, with pronounced cross-lingual misalignment; and (3) the "thinking" paradigm helps primarily models trained with native reasoning, while mixed-thinking designs offer a promising Pareto trade-off. In summary, LongBench Pro provides a robust testbed for advancing long-context understanding.