Mitigate Position Bias in Large Language Models via Scaling a Single Dimension

📄 arXiv: 2406.02536v3 📥 PDF

作者: Yijiong Yu, Huiqiang Jiang, Xufang Luo, Qianhui Wu, Chin-Yew Lin, Dongsheng Li, Yuqing Yang, Yongfeng Huang, Lili Qiu

分类: cs.CL, cs.LG

发布日期: 2024-06-04 (更新: 2025-05-23)

备注: Accepted at Findings of ACL 2025


💡 一句话要点

通过缩放单维度隐藏状态,缓解大语言模型中的位置偏差问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 位置偏差 长文本处理 注意力机制 隐藏状态缩放

📋 核心要点

  1. 大语言模型存在“中间迷失”的位置偏差问题,长文本场景下模型性能受关键信息位置影响显著。
  2. 该论文的核心思想是通过缩放位置相关的隐藏状态来缓解位置偏差,提升模型对不同位置信息的处理能力。
  3. 实验表明,该方法在多个任务和模型上有效,仅修改一个维度的隐藏状态即可提升高达15.2%的性能。

📝 摘要(中文)

大语言模型(LLMs)因其卓越的泛化能力和强大的生成能力而被广泛应用于各种实际场景。然而,它们表现出位置偏差,也称为“中间迷失”现象,这在长上下文场景中尤为明显,表明关键信息在提示中的不同位置会显著影响准确性。本文首先探讨了位置偏差的微观表现,得出结论:注意力权重是位置偏差的一种微观表达。进一步确定,除了位置嵌入之外,因果注意力掩码也通过创建特定位置的隐藏状态来促成位置偏差。基于这些见解,我们提出了一种通过缩放这种位置隐藏状态来缓解位置偏差的方法。在NaturalQuestions多文档问答、KV检索、LongBench和时间线重排序任务上,使用包括RoPE模型、上下文窗口扩展模型和Alibi模型在内的各种模型进行的实验,证明了我们方法的有效性和通用性。我们的方法仅通过修改隐藏状态的一个维度,即可将性能提高高达15.2%。我们的代码可在https://aka.ms/PositionalHidden获取。

🔬 方法详解

问题定义:大语言模型在处理长文本时,容易出现“中间迷失”现象,即模型更倾向于关注首尾的信息,而忽略中间部分的信息,导致模型性能下降。现有的方法,例如调整位置编码等,并不能完全解决这个问题,仍然存在位置偏差。

核心思路:该论文的核心思路是,位置偏差不仅与位置嵌入有关,还与因果注意力掩码导致的特定位置隐藏状态有关。因此,通过缩放这些位置相关的隐藏状态,可以缓解位置偏差,使模型更好地利用文本中间的信息。

技术框架:该方法不需要修改模型的整体架构,只需要在现有的模型基础上,对隐藏状态进行缩放操作。具体来说,在计算注意力权重之前,对每个位置的隐藏状态的特定维度进行缩放。这个缩放因子是一个可学习的参数,可以根据不同的任务和模型进行调整。

关键创新:该论文的关键创新在于,发现了因果注意力掩码对位置偏差的影响,并提出了通过缩放位置相关的隐藏状态来缓解位置偏差的方法。这种方法简单有效,不需要修改模型的整体架构,易于实现和部署。

关键设计:该方法的关键设计在于缩放因子的选择。缩放因子是一个可学习的参数,可以通过训练数据进行优化。论文中使用了不同的缩放策略,例如对所有位置使用相同的缩放因子,或者对不同的位置使用不同的缩放因子。此外,论文还研究了缩放维度的选择,发现对特定维度进行缩放可以获得更好的效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文的实验结果表明,提出的方法在NaturalQuestions多文档问答、KV检索、LongBench和时间线重排序任务上均取得了显著的性能提升。例如,在某些任务上,仅通过修改隐藏状态的一个维度,即可将性能提高高达15.2%。此外,该方法在不同的模型上都表现出良好的通用性,包括RoPE模型、上下文窗口扩展模型和Alibi模型。

🎯 应用场景

该研究成果可广泛应用于需要处理长文本的场景,例如文档问答、信息检索、文本摘要、时间线重排序等。通过缓解大语言模型中的位置偏差,可以提高模型在这些任务上的性能,提升用户体验。此外,该方法还可以应用于其他类型的序列模型,例如语音识别、机器翻译等。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly applied in various real-world scenarios due to their excellent generalization capabilities and robust generative abilities. However, they exhibit position bias, also known as "lost in the middle", a phenomenon that is especially pronounced in long-context scenarios, which indicates the placement of the key information in different positions of a prompt can significantly affect accuracy. This paper first explores the micro-level manifestations of position bias, concluding that attention weights are a micro-level expression of position bias. It further identifies that, in addition to position embeddings, causal attention mask also contributes to position bias by creating position-specific hidden states. Based on these insights, we propose a method to mitigate position bias by scaling this positional hidden states. Experiments on the NaturalQuestions Multi-document QA, KV retrieval, LongBench and timeline reorder tasks, using various models including RoPE models, context windowextended models, and Alibi models, demonstrate the effectiveness and generalizability of our approach. Our method can improve performance by up to 15.2% by modifying just one dimension of hidden states. Our code is available at https://aka.ms/PositionalHidden.