Acquiescence Bias in Large Language Models
作者: Daniel Braun
分类: cs.CL
发布日期: 2025-09-10
备注: Accepted to EMNLP 2025 Findings
💡 一句话要点
揭示大语言模型中的“否认偏见”:与人类的从众心理相反
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 从众偏见 认知偏差 自然语言处理 问答系统
📋 核心要点
- 人类调查中存在从众偏见,即倾向于同意调查陈述,这在LLM中是否也存在是一个待研究的问题。
- 该研究的核心思想是,通过设计特定的实验,观察LLM在不同任务和语言环境下对肯定和否定回答的倾向性。
- 实验结果表明,LLM表现出与人类相反的偏见,即倾向于回答“否”,这与人类的从众心理形成对比。
📝 摘要(中文)
本研究探讨了大语言模型(LLM)中是否存在“从众偏见”,即人类在调查中倾向于同意陈述,而与他们实际的信念无关。由于LLM容易受到输入微小变化的影响,并且是在人类生成的数据上训练的,因此有理由认为它们可能表现出类似的倾向。我们对不同模型、任务和语言(英语、德语和波兰语)的LLM进行了研究,以调查是否存在从众偏见。结果表明,与人类相反,LLM表现出一种倾向于回答“否”的偏见,无论这是否表示同意或不同意。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)是否存在一种与人类相似的“从众偏见”,即倾向于同意提出的观点,而不管其真实信念。现有方法缺乏对LLM中这种偏见的系统性研究,因此无法确定LLM是否会受到类似人类的认知偏差影响。
核心思路:论文的核心思路是通过设计一系列针对LLM的问答实验,系统性地评估其在不同任务和语言环境下对肯定和否定回答的倾向性。通过分析LLM的回答模式,可以判断其是否存在一种系统性的偏见,并确定这种偏见的方向和强度。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择多个具有代表性的LLM模型;2) 设计包含肯定和否定陈述的问答题目,覆盖不同的任务类型和语言(英语、德语、波兰语);3) 将这些问题输入到LLM中,并记录其回答;4) 对LLM的回答进行统计分析,计算其对肯定和否定回答的倾向性;5) 对不同模型、任务和语言的结果进行比较,以确定是否存在普遍的偏见模式。
关键创新:该研究的关键创新在于首次系统性地研究了LLM中的“否认偏见”,并发现LLM与人类的从众心理相反,倾向于回答“否”。这一发现挑战了人们对LLM认知能力的固有假设,并为进一步研究LLM的认知偏差提供了新的视角。
关键设计:研究中,问题的设计需要保证肯定和否定回答在语义上具有相似的难度和复杂度,以避免LLM因为理解难度不同而产生偏差。此外,为了控制语言因素的影响,研究使用了多种语言的问题,并对不同语言的结果进行了比较。具体的参数设置和损失函数取决于所使用的LLM模型,研究主要关注的是模型的输出结果,而不是训练过程。
📊 实验亮点
实验结果表明,LLM普遍存在一种倾向于回答“否”的偏见,无论这是否表示同意或不同意。这种偏见在不同的模型、任务和语言中都存在,表明这是一种普遍的现象。与人类的从众心理相反,LLM的这种“否认偏见”可能会影响其在实际应用中的表现。
🎯 应用场景
该研究结果对LLM的应用具有重要意义。了解LLM的“否认偏见”有助于在实际应用中更好地解释和校正LLM的输出,例如在问答系统、情感分析和决策支持等领域。未来的研究可以进一步探索这种偏见的产生原因,并开发相应的技术来减轻或消除这种偏见,从而提高LLM的可靠性和公正性。
📄 摘要(原文)
Acquiescence bias, i.e. the tendency of humans to agree with statements in surveys, independent of their actual beliefs, is well researched and documented. Since Large Language Models (LLMs) have been shown to be very influenceable by relatively small changes in input and are trained on human-generated data, it is reasonable to assume that they could show a similar tendency. We present a study investigating the presence of acquiescence bias in LLMs across different models, tasks, and languages (English, German, and Polish). Our results indicate that, contrary to humans, LLMs display a bias towards answering no, regardless of whether it indicates agreement or disagreement.