Can LLMs reason over extended multilingual contexts? Towards long-context evaluation beyond retrieval and haystacks
作者: Amey Hengle, Prasoon Bajpai, Soham Dan, Tanmoy Chakraborty
分类: cs.CL
发布日期: 2025-04-17
备注: 33 Pages in Total - 23 (Main Manuscript) + 10 (Appendix)
💡 一句话要点
提出MLRBench,用于评估LLM在多语言长文本上的推理能力,超越简单检索。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本推理 多语言模型 基准测试 语言模型评估 检索增强生成
📋 核心要点
- 现有长文本基准侧重于检索,忽略了模型在长文本上的推理能力,且易受数据泄露影响。
- MLRBench通过多跳推理、聚合和认知推理任务,更全面地评估LLM在多语言长文本上的推理能力。
- 实验表明,LLM在多语言长文本推理中存在高低资源语言差距,且上下文利用率较低。
📝 摘要(中文)
现有的多语言长文本基准测试,通常基于流行的“大海捞针”测试,主要评估模型在不相关文本中定位特定信息的能力。然而,这种以检索为中心的方法是短视且具有局限性的,因为仅仅成功的回忆并不能表明模型在扩展上下文中进行推理的能力。此外,这些基准测试容易受到数据泄露和短路的影响,并可能使评估先验可识别。为了解决这些限制,我们引入了MLRBench,这是一个用于多语言长文本推理的新型合成基准测试。与现有基准测试不同,MLRBench超越了表面级别的检索,包括评估多跳推理、聚合和认知推理的任务。MLRBench涵盖七种语言,旨在并行、抗泄漏并可扩展到任意上下文长度。我们使用开放权重的大型语言模型(LLM)进行的大量实验表明,在高资源和低资源语言之间存在明显的差距,特别是对于需要模型聚合多个事实或预测信息缺失的任务。我们还发现,在多语言环境中,LLM有效利用的上下文长度不到其声称的30%。虽然现成的检索增强生成在一定程度上缓解了这种情况,但它并没有解决长文本问题。我们开源MLRBench,以促进未来改进多语言LLM的评估和训练的研究。
🔬 方法详解
问题定义:现有长文本评估基准主要采用“大海捞针”式检索任务,无法有效评估LLM在长文本上的推理能力,例如多跳推理、信息聚合和认知推理。此外,现有基准容易受到数据泄露的影响,导致评估结果失真。因此,需要一种新的基准来更全面、可靠地评估LLM在多语言长文本上的推理能力。
核心思路:MLRBench的核心思路是设计一系列需要多跳推理、信息聚合和认知推理的任务,以评估LLM在长文本上的推理能力,而不仅仅是检索能力。同时,MLRBench采用合成数据生成方式,避免数据泄露问题,并支持多种语言,以评估LLM在多语言环境下的表现。
技术框架:MLRBench包含多个任务,每个任务都设计用于评估LLM在长文本上的不同推理能力。这些任务包括:多跳推理(需要模型从多个句子中提取信息进行推理)、信息聚合(需要模型将多个事实进行整合)、认知推理(需要模型根据已知信息推断未知信息)。MLRBench支持七种语言,并可以扩展到任意上下文长度。
关键创新:MLRBench的关键创新在于其任务设计,这些任务超越了简单的检索,更侧重于评估LLM在长文本上的推理能力。此外,MLRBench采用合成数据生成方式,避免了数据泄露问题,保证了评估的可靠性。
关键设计:MLRBench的任务设计需要仔细考虑,以确保任务能够有效评估LLM的推理能力,同时避免任务过于简单或过于困难。合成数据的生成需要保证数据的多样性和真实性,以避免模型过度拟合。具体参数设置和损失函数未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在多语言长文本推理中存在显著的高低资源语言差距,且LLM有效利用的上下文长度不到其声称的30%。检索增强生成在一定程度上缓解了上下文利用率问题,但并未完全解决。这些结果揭示了现有LLM在多语言长文本推理方面的局限性,为未来的研究方向提供了指导。
🎯 应用场景
MLRBench可用于评估和改进LLM在多语言长文本上的推理能力,从而提升LLM在信息检索、机器翻译、问答系统等领域的性能。该基准测试有助于推动多语言LLM的发展,使其更好地服务于全球用户。
📄 摘要(原文)
Existing multilingual long-context benchmarks, often based on the popular needle-in-a-haystack test, primarily evaluate a model's ability to locate specific information buried within irrelevant texts. However, such a retrieval-centric approach is myopic and inherently limited, as successful recall alone does not indicate a model's capacity to reason over extended contexts. Moreover, these benchmarks are susceptible to data leakage, short-circuiting, and risk making the evaluation a priori identifiable. To address these limitations, we introduce MLRBench, a new synthetic benchmark for multilingual long-context reasoning. Unlike existing benchmarks, MLRBench goes beyond surface-level retrieval by including tasks that assess multi-hop inference, aggregation, and epistemic reasoning. Spanning seven languages, MLRBench is designed to be parallel, resistant to leakage, and scalable to arbitrary context lengths. Our extensive experiments with an open-weight large language model (LLM) reveal a pronounced gap between high- and low-resource languages, particularly for tasks requiring the model to aggregate multiple facts or predict the absence of information. We also find that, in multilingual settings, LLMs effectively utilize less than 30% of their claimed context length. Although off-the-shelf Retrieval Augmented Generation helps alleviate this to a certain extent, it does not solve the long-context problem. We open-source MLRBench to enable future research in improved evaluation and training of multilingual LLMs.