AI Can Be Cognitively Biased: An Exploratory Study on Threshold Priming in LLM-Based Batch Relevance Assessment

📄 arXiv: 2409.16022v2 📥 PDF

作者: Nuo Chen, Jiqun Liu, Xiaoyu Dong, Qijiong Liu, Tetsuya Sakai, Xiao-Ming Wu

分类: cs.CL, cs.AI

发布日期: 2024-09-24 (更新: 2024-10-08)


💡 一句话要点

研究表明:LLM在批量相关性评估中存在阈值启动效应认知偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 认知偏差 阈值启动效应 信息检索 相关性判断

📋 核心要点

  1. 现有研究对LLM的认知偏差关注不足,尤其是在信息检索等决策场景中的影响。
  2. 该研究探索LLM在相关性判断中是否受到阈值启动效应的影响,即先前文档影响后续判断。
  3. 实验结果表明,LLM的判断受到阈值启动偏差的影响,与人类判断类似,需重视其潜在影响。

📝 摘要(中文)

认知偏差是导致非理性判断和问题决策的系统性思维偏差,在各个领域都有广泛研究。最近,大型语言模型(LLM)显示出先进的理解能力,但也可能从其训练数据中继承人类偏差。虽然LLM中的社会偏差已得到充分研究,但认知偏差受到的关注较少,现有研究主要集中在特定场景。认知偏差对LLM在各种决策环境中的更广泛影响仍未得到充分探索。我们研究了LLM是否受到相关性判断中阈值启动效应的影响,这是信息检索(IR)领域的核心任务和广泛讨论的研究课题。启动效应是指暴露于某些刺激会无意识地影响后续行为和决策。我们的实验采用了TREC 2019深度学习通道检索任务的10个主题,并在不同的文档相关性得分、批次长度和LLM模型(包括GPT-3.5、GPT-4、LLaMa2-13B和LLaMa2-70B)下测试了AI判断。结果表明,无论使用哪种组合和模型,如果较早的文档具有较高的相关性,LLM倾向于给后面的文档较低的分数,反之亦然。我们的发现表明,LLM的判断与人类判断类似,也受到阈值启动偏差的影响,并表明研究人员和系统工程师在设计、评估和审计IR任务及其他任务中的LLM时,应考虑到潜在的类人认知偏差。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在信息检索(IR)任务中的相关性判断是否会受到认知偏差中的阈值启动效应的影响。现有的研究主要关注LLM的社会偏差,而忽略了认知偏差,尤其是在IR这种需要进行序列决策的任务中,LLM可能受到先前判断的影响,从而产生偏差。

核心思路:核心思路是模拟人类在进行相关性判断时可能出现的阈值启动效应,即先前的判断会影响后续的判断。具体来说,如果先前判断的文档相关性较高,那么后续文档即使相关性也较高,LLM也可能给出较低的评分,反之亦然。通过设计实验来验证LLM是否也存在这种现象。

技术框架:该研究的技术框架主要包括以下几个步骤:1)选择TREC 2019 Deep Learning passage track collection数据集,选取10个主题。2)使用不同的LLM模型(GPT-3.5、GPT-4、LLaMa2-13B和LLaMa2-70B)对文档进行相关性判断。3)控制不同的文档相关性得分和批次长度,以模拟不同的启动效应。4)分析LLM的判断结果,观察是否存在阈值启动效应。

关键创新:该研究的关键创新在于首次系统性地研究了LLM在信息检索任务中受到认知偏差(阈值启动效应)的影响。之前的研究主要关注LLM的社会偏差,而忽略了认知偏差。该研究的发现表明,LLM的判断与人类判断类似,也会受到认知偏差的影响,这对于LLM在IR任务中的应用具有重要的指导意义。

关键设计:实验的关键设计包括:1)使用TREC 2019数据集,保证了实验的可靠性和可重复性。2)选择不同的LLM模型,包括商业模型和开源模型,以验证结果的泛化性。3)控制文档相关性得分和批次长度,以模拟不同的启动效应。4)使用统计方法分析LLM的判断结果,以验证是否存在阈值启动效应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,无论使用哪种LLM模型(GPT-3.5、GPT-4、LLaMa2-13B和LLaMa2-70B),LLM的判断都受到阈值启动偏差的影响。具体来说,如果较早的文档具有较高的相关性,LLM倾向于给后面的文档较低的分数,反之亦然。这一发现表明LLM的判断与人类判断类似,也存在认知偏差。

🎯 应用场景

该研究的潜在应用领域包括信息检索、推荐系统、内容审核等。实际价值在于帮助研究人员和系统工程师在设计、评估和审计LLM时,考虑到潜在的类人认知偏差,从而提高LLM的性能和公平性。未来影响在于促进对LLM认知偏差的更深入研究,并开发相应的缓解措施。

📄 摘要(原文)

Cognitive biases are systematic deviations in thinking that lead to irrational judgments and problematic decision-making, extensively studied across various fields. Recently, large language models (LLMs) have shown advanced understanding capabilities but may inherit human biases from their training data. While social biases in LLMs have been well-studied, cognitive biases have received less attention, with existing research focusing on specific scenarios. The broader impact of cognitive biases on LLMs in various decision-making contexts remains underexplored. We investigated whether LLMs are influenced by the threshold priming effect in relevance judgments, a core task and widely-discussed research topic in the Information Retrieval (IR) coummunity. The priming effect occurs when exposure to certain stimuli unconsciously affects subsequent behavior and decisions. Our experiment employed 10 topics from the TREC 2019 Deep Learning passage track collection, and tested AI judgments under different document relevance scores, batch lengths, and LLM models, including GPT-3.5, GPT-4, LLaMa2-13B and LLaMa2-70B. Results showed that LLMs tend to give lower scores to later documents if earlier ones have high relevance, and vice versa, regardless of the combination and model used. Our finding demonstrates that LLM%u2019s judgments, similar to human judgments, are also influenced by threshold priming biases, and suggests that researchers and system engineers should take into account potential human-like cognitive biases in designing, evaluating, and auditing LLMs in IR tasks and beyond.