Long-context LLMs Struggle with Long In-context Learning
作者: Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen
分类: cs.CL, cs.AI
发布日期: 2024-04-02 (更新: 2024-06-12)
💡 一句话要点
提出LongICLBench以评估长上下文LLMs在极端标签分类中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文学习 极端标签分类 大型语言模型 性能评估 推理能力
📋 核心要点
- 现有大型语言模型在处理长上下文时,主要评估指标无法全面反映其真实能力,尤其是在复杂任务中表现不佳。
- 本文提出LongICLBench基准,专注于极端标签分类,要求LLMs理解整个输入以识别庞大的标签空间。
- 实验结果显示,尽管LLMs在简单任务中表现良好,但在处理复杂任务时存在明显的性能差距,尤其是对后续标签的偏向性。
📝 摘要(中文)
大型语言模型(LLMs)在处理长序列方面取得了显著进展,但其性能评估主要依赖于困惑度和合成任务,这可能无法全面反映其在真实场景中的能力。本文引入了一个基准(LongICLBench),用于极端标签分类中的长上下文学习,涵盖六个数据集,类别从28到174,输入长度从2K到50K个标记。通过对15个长上下文LLMs的评估,发现它们在较小标签空间和短演示的分类任务中表现良好,但在处理174个标签的更具挑战性的任务时表现不佳,揭示了现有LLMs在理解长上下文和推理方面的不足。我们认为LongICLBench将为未来长上下文LLMs提供更现实的评估。
🔬 方法详解
问题定义:本文旨在解决现有大型语言模型在长上下文学习中的评估不足,特别是在极端标签分类任务中的表现。现有方法主要依赖于简单的评估指标,无法揭示模型在复杂任务中的真实能力。
核心思路:通过引入LongICLBench基准,要求模型在极端标签分类中理解和处理长输入序列,从而更全面地评估其推理能力和上下文理解能力。
技术框架:LongICLBench包含六个数据集,类别数量从28到174,输入长度从2K到50K个标记。评估过程涉及对15个长上下文LLMs的性能测试,重点关注模型在不同任务难度下的表现。
关键创新:LongICLBench的引入是本文的主要创新点,它提供了一个更具挑战性和现实性的评估标准,能够揭示LLMs在处理长上下文时的局限性。
关键设计:在实验中,模型需要处理的输入长度和类别数量经过精心设计,以确保评估的全面性和挑战性。此外,实验还分析了模型在处理长序列时的偏向性和推理能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,15个长上下文LLMs在简单分类任务中表现良好,但在处理174个标签的复杂任务时,性能显著下降,显示出对后续标签的偏向性。这一发现揭示了现有模型在长上下文理解和推理方面的不足,为未来的研究提供了重要的参考。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、信息检索和智能问答系统等。通过提供更准确的评估标准,LongICLBench可以帮助研究人员和开发者更好地理解和改进大型语言模型在复杂任务中的表现,推动相关技术的进步和应用。
📄 摘要(原文)
Large Language Models (LLMs) have made significant strides in handling long sequences. Some models like Gemini could even to be capable of dealing with millions of tokens. However, their performance evaluation has largely been confined to metrics like perplexity and synthetic tasks, which may not fully capture their true abilities in more challenging, real-world scenarios. We introduce a benchmark (LongICLBench) for long in-context learning in extreme-label classification using six datasets with 28 to 174 classes and input lengths from 2K to 50K tokens. Our benchmark requires LLMs to comprehend the entire input to recognize the massive label spaces to make correct predictions. We evaluate on 15 long-context LLMs and find that they perform well on less challenging classification tasks with smaller label space and shorter demonstrations. However, they struggle with more challenging task like Discovery with 174 labels, suggesting a gap in their ability to process long, context-rich sequences. Further analysis reveals a bias towards labels presented later in the sequence and a need for improved reasoning over multiple pieces of information. Our study reveals that long context understanding and reasoning is still a challenging task for the existing LLMs. We believe LongICLBench could serve as a more realistic evaluation for the future long-context LLMs.