Evaluating Multilingual Long-Context Models for Retrieval and Reasoning

📄 arXiv: 2409.18006v3 📥 PDF

作者: Ameeta Agrawal, Andy Dang, Sina Bagheri Nezhad, Rhitabrat Pokharel, Russell Scheinberg

分类: cs.CL

发布日期: 2024-09-26 (更新: 2024-10-12)

备注: To appear at MRL 2024


💡 一句话要点

mLongRR数据集揭示多语言长文本模型在检索和推理上的性能差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 长文本处理 信息检索 推理能力 低资源语言 数据集构建 性能评估

📋 核心要点

  1. 现有长文本LLM评估主要集中在英文,忽略了多语言环境下多个目标句子的复杂性。
  2. 论文构建mLongRR数据集,评估LLM在多种语言和不同目标句子数量下的检索和推理能力。
  3. 实验表明,LLM在低资源语言和多目标句子场景下性能显著下降,揭示了现有模型的局限性。

📝 摘要(中文)

最近的大型语言模型(LLMs)在处理长文本方面表现出令人印象深刻的能力,在合成检索任务中甚至表现出近乎完美的召回率。然而,这些评估主要集中在英文文本上,并且涉及长文本中单个目标句子。本文研究了LLM的性能如何推广到具有多个隐藏目标句子的多语言环境。我们创建了一个新的数据集--mLongRR--来全面评估几种多语言长文本LLM在五种语言(英语、越南语、印度尼西亚语、斯瓦希里语和索马里语)上的检索和推理任务。这些语言共享拉丁文字,但属于不同的语系和资源级别。我们的分析揭示了语言之间的显著性能差距。Gemini-1.5和GPT-4o等性能最佳的模型,在单个目标句子的情况下,英语的准确率约为96%,而索马里语的准确率约为36%。然而,当处理三个目标句子时,英语的准确率降至40%,索马里语的准确率降至0%。我们的研究结果突出了长文本LLM在处理更长的文本、目标句子数量的增加或较低资源级别的语言时所面临的挑战。

🔬 方法详解

问题定义:论文旨在解决多语言环境下,长文本LLM在检索和推理任务中的性能评估问题。现有评估方法主要集中于英文,且通常只包含单个目标句子,无法全面反映模型在实际应用中的能力。尤其是在低资源语言和存在多个目标句子的情况下,模型的性能表现未知,这限制了LLM在多语言场景下的应用。

核心思路:论文的核心思路是通过构建一个多语言长文本检索和推理数据集(mLongRR),来系统地评估LLM在不同语言和不同目标句子数量下的性能表现。通过对比模型在不同语言和场景下的性能差异,揭示模型在多语言长文本处理方面的局限性,并为未来的模型改进提供指导。

技术框架:论文的主要技术框架围绕mLongRR数据集的构建和LLM的评估展开。数据集包含五种语言(英语、越南语、印度尼西亚语、斯瓦希里语和索马里语),每种语言都包含不同数量的目标句子(1个或3个)。评估过程包括:1) 将长文本输入LLM;2) 指示LLM检索目标句子;3) 评估LLM检索的准确性。通过对比不同LLM在不同语言和目标句子数量下的准确率,分析模型的性能差异。

关键创新:论文的关键创新在于构建了mLongRR数据集,该数据集是首个专门用于评估多语言长文本LLM在检索和推理任务中性能的数据集。该数据集覆盖了多种语言和不同的目标句子数量,能够更全面地评估LLM在多语言环境下的性能表现。此外,论文还通过实验揭示了LLM在低资源语言和多目标句子场景下的性能瓶颈。

关键设计:mLongRR数据集的关键设计在于其多语言性和多目标句子数量。五种语言的选择考虑了语言的多样性和资源级别,目标句子数量的选择旨在模拟实际应用中可能存在的多个相关信息片段。评估指标主要采用准确率,用于衡量LLM检索目标句子的准确程度。具体而言,模型需要从长上下文中识别并提取出所有目标句子,如果模型提取的句子与所有目标句子完全匹配,则认为检索成功。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使是Gemini-1.5和GPT-4o等先进模型,在英文单目标句子下的准确率高达96%,但在索马里语单目标句子下仅为36%。当目标句子数量增加到3个时,英语准确率降至40%,索马里语降至0%。这突显了现有LLM在处理低资源语言和多目标句子时的显著性能下降。

🎯 应用场景

该研究成果可应用于多语言信息检索、机器翻译、跨语言问答等领域。通过了解LLM在不同语言和场景下的性能瓶颈,可以指导模型改进,提升其在多语言环境下的应用效果。此外,mLongRR数据集的发布,也为相关研究提供了基准测试平台,促进了多语言长文本处理技术的发展。

📄 摘要(原文)

Recent large language models (LLMs) demonstrate impressive capabilities in handling long contexts, some exhibiting near-perfect recall on synthetic retrieval tasks. However, these evaluations have mainly focused on English text and involved a single target sentence within lengthy contexts. Our work investigates how LLM performance generalizes to multilingual settings with multiple hidden target sentences. We create a new dataset -- mLongRR -- to comprehensively evaluate several multilingual long-context LLMs on retrieval and reasoning tasks across five languages: English, Vietnamese, Indonesian, Swahili, and Somali. These languages share the Latin script but belong to distinct language families and resource levels. Our analysis reveals a significant performance gap between languages. The best-performing models such as Gemini-1.5 and GPT-4o, achieve around 96% accuracy in English to around 36% in Somali with a single target sentence. However, this accuracy drops to 40% in English and 0% in Somali when dealing with three target sentences. Our findings highlight the challenges long-context LLMs face when processing longer contexts, an increase in the number of target sentences, or languages of lower resource levels.