Focused Large Language Models are Stable Many-Shot Learners

📄 arXiv: 2408.13987v1 📥 PDF

作者: Peiwen Yuan, Shaoxiong Feng, Yiwei Li, Xinglin Wang, Yueqi Zhang, Chuyi Tan, Boyuan Pan, Heda Wang, Yao Hu, Kan Li

分类: cs.CL, cs.AI

发布日期: 2024-08-26

备注: 15 pages


💡 一句话要点

提出FocusICL,解决LLM在多示例学习中因注意力分散导致性能下降的问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 上下文学习 大型语言模型 多示例学习 注意力机制 琐碎性过滤

📋 核心要点

  1. 现有ICL方法在多示例学习中,随着示例数量增加,模型注意力分散,导致性能下降。
  2. FocusICL通过token级别的琐碎性过滤和demonstration级别的分层注意力,集中模型对关键内容的关注。
  3. 实验表明,FocusICL在多示例学习中性能优于原始ICL,平均提升5.2%,并具有良好的扩展性。

📝 摘要(中文)

上下文学习(ICL)使大型语言模型(LLM)能够通过从演示示例中学习来实现快速的任务适应。随着LLM可用上下文长度的增加,最近的实验表明,ICL的性能在多示例(演示)设置中并不一定能很好地扩展。我们从理论上和实验上证实,原因是更多的演示分散了模型对查询的注意力,阻碍了其对关键内容的理解。受到人类从例子中学习方式的启发,我们提出了一种无需训练的方法FocusICL,它进行琐碎性过滤,以避免注意力被token级别的不重要内容分散,并进行分层注意力,以进一步确保对当前查询的充分关注。我们还设计了一种基于演示示例的模型困惑度的FocusICL高效超参数搜索策略。全面的实验验证了FocusICL相对于原始ICL实现了平均5.2%的性能提升,并且可以很好地扩展到多示例演示。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在上下文学习(ICL)中,当使用大量示例(many-shot)时,性能反而下降的问题。现有的ICL方法在处理多示例时,模型容易将注意力分散到不重要的信息上,从而影响对关键查询的理解,导致性能瓶颈。

核心思路:论文的核心思路是模仿人类从示例中学习的方式,即专注于重要的信息,忽略琐碎的细节。通过减少不相关信息的干扰,并增强对关键查询的关注,从而提高ICL在多示例场景下的性能。

技术框架:FocusICL包含两个主要模块:1) Token级别的琐碎性过滤:通过过滤掉不重要的token,减少模型在无关信息上的注意力消耗。2) Demonstration级别的分层注意力:通过分层注意力机制,确保模型对当前查询给予足够的关注。此外,论文还提出了一种基于模型困惑度的超参数搜索策略,用于高效地找到FocusICL的最佳参数配置。

关键创新:FocusICL的关键创新在于其无需训练的特性,以及token级别和demonstration级别的双重注意力机制。与需要额外训练的ICL方法不同,FocusICL可以直接应用于预训练的LLM,无需额外的计算资源。双重注意力机制能够更有效地过滤掉不相关信息,并增强对关键查询的关注。

关键设计:琐碎性过滤的具体实现方式未知,可能基于token的重要性评分或概率分布。分层注意力机制的具体结构也未知,可能采用多头注意力或自注意力机制。超参数搜索策略基于模型困惑度,通过优化困惑度来找到最佳的过滤阈值和注意力权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FocusICL在多个benchmark数据集上取得了显著的性能提升,平均超过原始ICL 5.2%。该方法在多示例学习中表现出良好的扩展性,能够有效利用更多的示例信息,从而进一步提高模型性能。此外,基于模型困惑度的超参数搜索策略能够高效地找到FocusICL的最佳参数配置。

🎯 应用场景

FocusICL可应用于各种需要利用大型语言模型进行上下文学习的任务,尤其是在需要处理大量示例的场景下,例如问答系统、文本摘要、机器翻译等。该方法能够提高模型的准确性和效率,降低计算成本,并促进LLM在实际应用中的部署。

📄 摘要(原文)

In-Context Learning (ICL) enables large language models (LLMs) to achieve rapid task adaptation by learning from demonstrations. With the increase in available context length of LLMs, recent experiments have shown that the performance of ICL does not necessarily scale well in many-shot (demonstration) settings. We theoretically and experimentally confirm that the reason lies in more demonstrations dispersing the model attention from the query, hindering its understanding of key content. Inspired by how humans learn from examples, we propose a training-free method FocusICL, which conducts triviality filtering to avoid attention being diverted by unimportant contents at token-level and operates hierarchical attention to further ensure sufficient attention towards current query at demonstration-level. We also design an efficient hyperparameter searching strategy for FocusICL based on model perplexity of demonstrations. Comprehensive experiments validate that FocusICL achieves an average performance improvement of 5.2% over vanilla ICL and scales well with many-shot demonstrations.