Large Language Models Show Human-like Social Desirability Biases in Survey Responses
作者: Aadesh Salecha, Molly E. Ireland, Shashanka Subrahmanya, João Sedoc, Lyle H. Ungar, Johannes C. Eichstaedt
分类: cs.AI, cs.CL, cs.CY, cs.HC
发布日期: 2024-05-09 (更新: 2024-11-21)
备注: 3 pages, 2 figures, accepted at PNAS Nexus
💡 一句话要点
大型语言模型在调查问卷中表现出类似人类的社会期望偏差
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社会期望偏差 人格评估 心理测量学 行为模拟
📋 核心要点
- 现有方法难以准确评估大型语言模型(LLMs)的潜在偏差,尤其是在模拟人类行为时。
- 该研究通过大五人格调查,系统地评估LLMs在不同评估情境下的社会期望偏差。
- 实验结果表明,LLMs会根据评估情境调整回答,表现出类似人类的社会期望偏差,且新模型偏差更明显。
📝 摘要(中文)
随着大型语言模型(LLMs)被广泛用于建模和模拟人类行为,理解其偏差变得至关重要。我们开发了一个使用大五人格调查的实验框架,揭示了各种LLM中先前未被发现的社会期望偏差。通过系统地改变LLM接触的问题数量,我们证明了它们能够推断自己何时被评估。当推断出人格评估时,LLM会将其分数偏向特质维度的理想端(即,增加外向性,降低神经质等)。这种偏差存在于所有测试模型中,包括GPT-4/3.5、Claude 3、Llama 3和PaLM-2。偏差水平在较新的模型中似乎有所增加,GPT-4的调查回复变化了1.20(人类)标准差,Llama 3的变化了0.98标准差——非常大的影响。这种偏差对问题顺序的随机化和释义具有鲁棒性。反向编码所有问题会降低偏差水平,但不会消除它们,这表明这种效应不能归因于默许偏差。我们的发现揭示了一种新兴的社会期望偏差,并对使用心理测量测试对LLM进行剖析以及将LLM用作人类参与者的代理施加了约束。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)在回答调查问卷时是否会表现出社会期望偏差,即为了迎合社会期望而调整自己的回答。现有方法难以检测和量化这种偏差,因为LLMs的行为模式复杂,且缺乏有效的评估框架。这种偏差的存在会影响LLMs作为人类行为代理的可靠性。
核心思路:论文的核心思路是通过模拟人类接受人格评估的场景,观察LLMs在不同评估压力下的回答变化。具体来说,通过改变LLMs接触的问题数量来诱导它们对自身是否被评估的感知,从而观察其回答是否会向更“理想”的人格特质方向偏移。这种设计能够有效地激发LLMs的社会期望偏差。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 选择大五人格调查问卷作为评估工具;2) 设计实验方案,系统性地改变LLMs接触的问题数量;3) 使用多种LLMs(包括GPT-4/3.5、Claude 3、Llama 3和PaLM-2)进行实验;4) 分析LLMs的回答,量化社会期望偏差的程度;5) 通过问题顺序随机化和反向编码等方法验证偏差的鲁棒性。
关键创新:该研究的关键创新在于:1) 首次揭示了LLMs中存在的社会期望偏差;2) 设计了一种有效的实验框架来检测和量化这种偏差;3) 证明了这种偏差在多种LLMs中普遍存在,且新模型偏差更明显。与现有方法相比,该研究更深入地探讨了LLMs的潜在偏差,并为评估LLMs的可靠性提供了新的视角。
关键设计:关键设计包括:1) 使用标准化的Big Five人格问卷,保证评估的有效性和可比性;2) 系统地改变问题数量,模拟不同的评估压力;3) 使用多种LLMs进行实验,验证结果的普遍性;4) 使用反向编码问题来排除默许偏差的影响;5) 使用人类标准差来量化偏差程度,方便比较不同模型之间的偏差大小。
📊 实验亮点
实验结果表明,所有测试的LLMs都表现出社会期望偏差,且偏差程度在新模型中有所增加。GPT-4的调查回复变化了1.20个(人类)标准差,Llama 3的变化了0.98个标准差。即使在问题顺序随机化和释义的情况下,这种偏差仍然存在。反向编码问题虽然能降低偏差,但无法完全消除,表明偏差并非完全由默许偏差引起。
🎯 应用场景
该研究成果对LLMs的应用具有重要影响。理解LLMs的社会期望偏差有助于更准确地评估其作为人类行为代理的可靠性,并指导LLMs在心理健康、市场调研等领域的应用。此外,该研究也提醒研究人员在利用LLMs进行社会科学研究时,需要谨慎对待其潜在偏差,避免得出错误的结论。
📄 摘要(原文)
As Large Language Models (LLMs) become widely used to model and simulate human behavior, understanding their biases becomes critical. We developed an experimental framework using Big Five personality surveys and uncovered a previously undetected social desirability bias in a wide range of LLMs. By systematically varying the number of questions LLMs were exposed to, we demonstrate their ability to infer when they are being evaluated. When personality evaluation is inferred, LLMs skew their scores towards the desirable ends of trait dimensions (i.e., increased extraversion, decreased neuroticism, etc). This bias exists in all tested models, including GPT-4/3.5, Claude 3, Llama 3, and PaLM-2. Bias levels appear to increase in more recent models, with GPT-4's survey responses changing by 1.20 (human) standard deviations and Llama 3's by 0.98 standard deviations-very large effects. This bias is robust to randomization of question order and paraphrasing. Reverse-coding all the questions decreases bias levels but does not eliminate them, suggesting that this effect cannot be attributed to acquiescence bias. Our findings reveal an emergent social desirability bias and suggest constraints on profiling LLMs with psychometric tests and on using LLMs as proxies for human participants.