LongReason: A Synthetic Long-Context Reasoning Benchmark via Context Expansion
作者: Zhan Ling, Kang Liu, Kai Yan, Yifan Yang, Weijian Lin, Ting-Han Fan, Lingfeng Shen, Zhengyin Du, Jiecao Chen
分类: cs.CL
发布日期: 2025-01-25 (更新: 2025-11-17)
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
提出LongReason:通过上下文扩展构建的长文本推理合成基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本推理 大型语言模型 基准测试 上下文扩展 阅读理解 逻辑推理 数学文字题 合成数据
📋 核心要点
- 现有长文本推理基准测试不足,任务范围窄,缺乏复杂推理需求,无法全面评估LLMs的能力。
- LongReason通过上下文扩展,将短文本推理问题合成为长文本推理问题,构建了包含多种推理模式的综合基准。
- 实验表明,现有LLMs在LongReason上随着上下文长度增加性能显著下降,表明长文本推理能力仍有提升空间。
📝 摘要(中文)
大型语言模型(LLMs)在理解长文本输入方面取得了显著进展。然而,评估LLMs长文本推理能力的基准测试相对滞后。现有的基准测试通常侧重于狭窄的任务范围或不要求复杂推理的任务。为了解决这一差距,并对当前LLMs的长文本推理能力进行更全面的评估,我们提出了一个新的合成基准LongReason,它通过上下文扩展,从各种短文本推理问题中合成长文本推理问题。LongReason包含794个多项选择推理题,涵盖阅读理解、逻辑推理和数学文字题三个任务类别中的各种推理模式。我们评估了21个LLMs在LongReason上的表现,结果表明,大多数模型随着上下文长度的增加,性能显著下降。进一步的分析表明,即使是最先进的LLMs在提供跨不同任务的鲁棒推理方面仍有很大的改进空间。我们已在https://huggingface.co/datasets/lz1bytedance/LongReason上开源LongReason,以支持对LLMs长文本推理能力的全面评估。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在处理长文本输入方面展现了潜力,但缺乏专门用于评估其长文本推理能力的基准。现有的基准往往集中于特定任务或缺乏复杂的推理要求,难以全面评估LLMs的真实能力。因此,需要一个更具挑战性和综合性的基准来衡量LLMs在长文本环境下的推理能力。
核心思路:LongReason的核心思路是通过上下文扩展,将现有的短文本推理问题转化为长文本推理问题。这种方法允许利用已有的高质量短文本推理数据集,并通过添加干扰信息或相关上下文来增加问题的复杂性和长度,从而模拟真实场景下的长文本推理挑战。
技术框架:LongReason的构建流程主要包括以下几个阶段:1) 选择合适的短文本推理数据集,涵盖阅读理解、逻辑推理和数学文字题等不同任务类型。2) 设计上下文扩展策略,包括添加干扰信息、相关背景知识或逐步推理步骤等。3) 根据扩展策略生成长文本推理问题,并确保问题的答案仍然可以通过长文本上下文进行推理得到。4) 对生成的问题进行人工审核,确保其质量和难度。
关键创新:LongReason的关键创新在于其合成长文本推理问题的方法。与直接收集长文本数据相比,这种方法更高效、可控,并且可以灵活地调整问题的难度和类型。通过上下文扩展,可以系统地评估LLMs在不同上下文长度下的推理性能,并分析其在处理干扰信息和复杂推理链方面的能力。
关键设计:LongReason包含794个多项选择题,涵盖阅读理解、逻辑推理和数学文字题三个类别。上下文扩展策略包括添加无关信息、相关背景知识以及逐步推理步骤。评估指标主要包括准确率,用于衡量模型在不同上下文长度下的推理性能。数据集已开源,方便研究人员使用和扩展。
🖼️ 关键图片
📊 实验亮点
在LongReason基准测试中,对21个LLMs进行了评估,结果显示,随着上下文长度的增加,大多数模型的性能显著下降。即使是最先进的LLMs,在不同任务上的鲁棒推理能力仍有很大的提升空间。这表明当前LLMs在长文本推理方面仍面临挑战,LongReason提供了一个有效的评估工具,可以帮助研究人员识别和解决这些问题。
🎯 应用场景
LongReason可用于评估和提升大型语言模型在各种实际应用中的长文本推理能力,例如:信息检索、文档摘要、问答系统、智能客服、以及需要处理大量文本数据的决策支持系统。通过LongReason的评估,可以推动LLMs在处理复杂、长篇幅信息时的性能提升,使其更好地服务于各行各业。
📄 摘要(原文)
Large language models (LLMs) have demonstrated remarkable progress in understanding long-context inputs. However, benchmarks for evaluating the long-context reasoning abilities of LLMs fall behind the pace. Existing benchmarks often focus on a narrow range of tasks or those that do not demand complex reasoning. To address this gap and enable a more comprehensive evaluation of the long-context reasoning capabilities of current LLMs, we propose a new synthetic benchmark, LongReason, which is constructed by synthesizing long-context reasoning questions from a varied set of short-context reasoning questions through context expansion. LongReason consists of 794 multiple-choice reasoning questions with diverse reasoning patterns across three task categories: reading comprehension, logical inference, and mathematical word problems. We evaluate 21 LLMs on LongReason, revealing that most models experience significant performance drops as context length increases. Our further analysis shows that even state-of-the-art LLMs still have significant room for improvement in providing robust reasoning across different tasks. We have open-sourced LongReason under https://huggingface.co/datasets/lz1bytedance/LongReason to support the comprehensive evaluation of LLMs' long-context reasoning capabilities.