Mitigating Social Desirability Bias in Random Silicon Sampling

📄 arXiv: 2512.22725v1 📥 PDF

作者: Sashank Chapala, Maksym Mironov, Songgaojun Deng

分类: cs.CL, cs.CY

发布日期: 2025-12-27

备注: 31 pages, 9 figures, and 24 tables


💡 一句话要点

通过心理学引导提示减少LLM中的社会期望偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会期望偏差 大型语言模型 硅采样 心理学提示 数据对齐 问卷调查 公共政策

📋 核心要点

  1. 现有的LLM采样方法在处理社会敏感问题时,常常受到社会期望偏差的影响,导致结果不够真实。
  2. 论文提出通过心理学基础的提示措辞来减轻社会期望偏差,增强硅样本与人类样本的对齐程度。
  3. 实验结果显示,重新措辞的提示在减少社会可接受答案的集中度方面表现最佳,改善了与ANES的对齐效果。

📝 摘要(中文)

大型语言模型(LLMs)在模拟人口反应方面的应用日益广泛,称为“硅采样”。然而,针对社会敏感问题的回答常常表现出社会期望偏差(SDB),与真实人类数据偏离,趋向于社会可接受的答案。现有关于LLM基础采样中社会期望偏差的研究仍然有限。本研究探讨了最小化的、基于心理学的提示措辞是否能够减轻这种偏差,并改善硅样本与人类样本之间的对齐。我们使用美国国家选举研究(ANES)数据对来自两个模型系列的三种LLM进行了研究。结果表明,经过重新措辞的提示最有效地改善了对齐,减少了对社会可接受答案的集中分布。

🔬 方法详解

问题定义:本论文旨在解决大型语言模型在社会敏感问题上表现出的社会期望偏差(SDB),现有方法未能有效减轻这种偏差,导致模拟结果与真实数据偏离。

核心思路:通过设计心理学基础的提示措辞,论文探讨了如何有效减轻SDB,提升硅样本的代表性和真实性。

技术框架:研究采用了来自美国国家选举研究(ANES)的数据,针对两种模型系列的三种LLM进行了实验,测试了四种提示缓解方法,包括重新措辞、反向编码、引导和前言。

关键创新:最重要的创新在于提出了基于提示的框架控制方法,尤其是重新措辞的提示显著改善了模型输出的对齐性,与现有方法相比,提供了更有效的偏差减轻策略。

关键设计:在实验中,采用了Jensen-Shannon散度与自助法置信区间评估对齐效果,重新措辞的提示使用中立的第三人称表达,反向编码则通过语义反转来测试效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,重新措辞的提示在减少社会可接受答案的集中度方面表现最佳,成功改善了与ANES的对齐效果,表明该方法在偏差减轻方面具有显著优势。反向编码的效果则因项目而异,而引导和前言的提示未显示出系统性的偏差减轻效果。

🎯 应用场景

该研究的潜在应用领域包括社会科学研究、市场调查和公共政策评估等。通过减轻社会期望偏差,研究结果能够提供更真实的模拟数据,帮助决策者和研究人员更好地理解公众意见和行为。未来,该方法可能在其他领域的问卷调查和数据采集中得到广泛应用。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used to simulate population responses, a method known as ``Silicon Sampling''. However, responses to socially sensitive questions frequently exhibit Social Desirability Bias (SDB), diverging from real human data toward socially acceptable answers. Existing studies on social desirability bias in LLM-based sampling remain limited. In this work, we investigate whether minimal, psychologically grounded prompt wording can mitigate this bias and improve alignment between silicon and human samples. We conducted a study using data from the American National Election Study (ANES) on three LLMs from two model families: the open-source Llama-3.1 series and GPT-4.1-mini. We first replicate a baseline silicon sampling study, confirming the persistent Social Desirability Bias. We then test four prompt-based mitigation methods: \emph{reformulated} (neutral, third-person phrasing), \emph{reverse-coded} (semantic inversion), and two meta-instructions, \emph{priming} and \emph{preamble}, respectively encouraging analytics and sincerity. Alignment with ANES is evaluated using Jensen-Shannon Divergence with bootstrap confidence intervals. Our results demonstrate that reformulated prompts most effectively improve alignment by reducing distribution concentration on socially acceptable answers and achieving distributions closer to ANES. Reverse-coding produced mixed results across eligible items, while the Priming and Preamble encouraged response uniformity and showed no systematic benefit for bias mitigation. Our findings validate the efficacy of prompt-based framing controls in mitigating inherent Social Desirability Bias in LLMs, providing a practical path toward more representative silicon samples.