Exploiting Primacy Effect To Improve Large Language Models

📄 arXiv: 2507.13949v1 📥 PDF

作者: Bianca Raimondi, Maurizio Gabbrielli

分类: cs.CL, cs.AI

发布日期: 2025-07-18

备注: Accepted by RANLP 2025

DOI: 10.26615/978-954-452-098-4-113


💡 一句话要点

利用首因效应提升大型语言模型在多项选择题问答中的表现

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 首因效应 多项选择题问答 偏差利用 语义相似性

📋 核心要点

  1. 大型语言模型存在首因效应等位置偏差,影响多项选择题问答的准确性。
  2. 论文通过语义相似性重排序答案选项,策略性利用首因效应,无需预知正确答案。
  3. 实验表明,该方法显著提升了大型语言模型在多项选择题问答中的性能。

📝 摘要(中文)

大型语言模型(LLMs)已成为许多自然语言处理(NLP)任务的关键,它们通过广泛的预训练和微调来实现高精度。然而,与人类一样,LLMs也表现出偏差,特别是位置偏差,如首因效应和近因效应,这些偏差会影响答案的准确性。首因效应——即最先呈现的项目更容易被记住或选择——在多项选择题问答(MCQA)中起着关键作用,其中答案选项的顺序会影响预测结果。本研究侧重于微调LLMs中的首因偏差:我们首先表明,微调会放大这种偏差,这可能是由于暴露于类似人类的模式。因此,我们通过基于与查询的语义相似性重新排序响应选项来策略性地利用这种效应,而无需知道正确答案。我们的实验结果表明,这种方法显著提高了MCQA的性能。更一般地说,我们的发现强调了偏差的双重性质,既是挑战也是机遇,为偏差感知模型设计和NLP应用提供了见解。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多项选择题问答(MCQA)中受首因效应影响的问题。现有方法没有充分考虑或利用这种偏差,导致模型在答案选项顺序变化时表现不稳定。

核心思路:论文的核心思路是,既然微调会放大LLM的首因效应,那么可以通过控制答案选项的呈现顺序来利用这种偏差。具体来说,将与问题语义更相关的选项放在前面,从而提高模型选择正确答案的概率。

技术框架:该方法不需要修改LLM的内部结构或训练过程。主要流程包括:1) 计算每个答案选项与问题的语义相似度;2) 根据相似度对答案选项进行排序,将最相似的选项放在最前面;3) 将重新排序后的问题和答案选项输入LLM进行预测。

关键创新:该方法最重要的创新点在于,它不是试图消除偏差,而是巧妙地利用偏差来提升性能。通过简单的答案选项重排序,就能显著提高MCQA的准确率,而无需复杂的模型修改或训练技巧。

关键设计:语义相似度的计算是关键。论文可能使用了预训练的词向量或句子嵌入模型(例如BERT、Sentence-BERT)来计算问题和答案选项之间的语义相似度。具体的相似度度量方式(例如余弦相似度)以及相似度阈值的选择可能会影响最终结果。此外,如何处理相似度非常接近的选项也可能需要特殊设计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过利用首因效应进行答案选项重排序,可以显著提高LLM在MCQA任务中的性能。具体的性能提升幅度取决于数据集和LLM的类型,但总体趋势是正向的。该方法不需要额外的训练数据或计算资源,易于部署和应用。

🎯 应用场景

该研究成果可应用于各种需要多项选择题问答的场景,例如在线教育、智能客服、考试系统等。通过优化答案选项的呈现顺序,可以提高用户体验和系统准确性。此外,该研究也为偏差感知模型设计提供了新的思路,即可以将偏差视为一种可利用的资源,而不是必须消除的缺陷。

📄 摘要(原文)

Large Language Models (LLMs) have become essential in many Natural Language Processing (NLP) tasks, leveraging extensive pre-training and fine-tuning to achieve high accuracy. However, like humans, LLMs exhibit biases, particularly positional biases such as primacy and recency effects, which can influence the accuracy of the answers. The primacy effect-where items presented first are more likely to be remembered or selected-plays a key role in Multiple Choice Question Answering (MCQA), where the order of answer options can affect prediction outcomes. This study focuses on primacy bias in fine-tuned LLMs: We first show that fine-tuning amplifies this bias, probably due to exposure to human-like patterns. Hence, we strategically leverage this effect by reordering response options based on semantic similarity to the query, without requiring knowledge of the correct answer. Our experimental results show that this approach significantly improves performance in MCQA. More generally, our findings underscore the dual nature of biases as both challenges and opportunities, offering insights for bias-aware model design and NLP applications.