Evaluating the Bias in LLMs for Surveying Opinion and Decision Making in Healthcare

📄 arXiv: 2504.08260v2 📥 PDF

作者: Yonchanok Khaokaew, Flora D. Salim, Andreas Züfle, Hao Xue, Taylor Anderson, C. Raina MacIntyre, Matthew Scotch, David J Heslop

分类: cs.CL

发布日期: 2025-04-11 (更新: 2025-04-17)


💡 一句话要点

利用LLM评估医疗决策中的偏差:对比真实调研与生成代理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗决策 偏差评估 生成式代理 数字孪生

📋 核心要点

  1. 现有方法难以在保护隐私和安全的前提下,准确模拟人类在医疗决策中的行为。
  2. 论文提出利用基于人口统计学的提示工程,创建调查受访者的数字孪生,并使用LLM模拟其决策过程。
  3. 实验表明,不同LLM在重现真实世界行为方面存在差异,Llama 3在捕捉种族和收入差异方面表现较好,但也引入了偏差。

📝 摘要(中文)

生成式代理越来越多地被用于在计算机中模拟人类行为,这主要得益于大型语言模型(LLM)的发展。这些模拟环境为研究人类行为提供了一个沙盒,既保护了隐私又保证了安全。然而,这些代理是否能够真正代表真实个体仍然不清楚。本研究将来自“理解美国研究”(UAS)的关于医疗决策的调查数据与来自生成式代理的模拟响应进行了比较。通过基于人口统计学的提示工程,我们创建了调查受访者的数字孪生,并分析了不同的LLM在多大程度上能够重现真实世界的行为。我们的研究结果表明,一些LLM未能反映现实的决策,例如预测普遍接受疫苗。然而,Llama 3更准确地捕捉了种族和收入的差异,但也引入了UAS数据中不存在的偏差。这项研究强调了生成式代理在行为研究中的潜力,同时也强调了来自LLM和提示策略的偏差风险。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在模拟人类医疗决策行为时的偏差。现有方法,如直接使用LLM生成决策,缺乏对真实世界数据的校准,可能无法准确反映不同人群的决策模式,并且难以控制和评估潜在的偏差来源。

核心思路:论文的核心思路是构建基于人口统计学的数字孪生,即利用LLM模拟特定人群的决策过程。通过对比LLM生成的决策与真实世界调查数据,可以量化LLM在模拟不同人群决策时的偏差,并分析偏差的来源。这种方法允许在安全和隐私的环境下研究人类行为,同时评估LLM的可靠性。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集:从“理解美国研究”(UAS)获取关于医疗决策的调查数据,包括人口统计学信息和决策行为。2) 提示工程:基于受访者的人口统计学信息,设计特定的提示语,用于引导LLM生成相应的决策。3) LLM模拟:使用不同的LLM(如GPT系列和Llama系列)和提示语,生成模拟的决策数据。4) 偏差分析:对比LLM生成的决策数据与真实调查数据,使用统计方法量化LLM在模拟不同人群决策时的偏差。

关键创新:论文的关键创新在于将人口统计学信息融入提示工程,从而创建更具代表性的数字孪生。这种方法允许更细粒度地控制和评估LLM在模拟不同人群决策时的偏差。此外,论文还系统地比较了不同LLM在模拟医疗决策行为时的表现,揭示了不同模型在偏差方面的差异。

关键设计:论文的关键设计包括:1) 人口统计学特征的选择:选择种族、收入等关键人口统计学特征作为提示语的基础。2) 提示语的设计:设计清晰、明确的提示语,引导LLM生成与调查问题相关的决策。3) 偏差评估指标的选择:选择合适的统计指标,如准确率、召回率等,量化LLM在模拟不同人群决策时的偏差。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,不同的LLM在模拟医疗决策行为时存在显著差异。例如,一些LLM倾向于预测普遍接受疫苗,这与真实世界的数据不符。Llama 3在捕捉种族和收入差异方面表现较好,但同时也引入了UAS数据中不存在的偏差。这些结果表明,在使用LLM进行行为模拟时,需要谨慎评估其偏差,并选择合适的模型和提示策略。

🎯 应用场景

该研究成果可应用于医疗政策制定、公共卫生干预和个性化医疗等领域。通过使用LLM模拟不同人群的医疗决策,可以预测政策的影响,优化干预策略,并为患者提供更个性化的医疗建议。此外,该研究也为评估和减轻LLM在其他领域的偏差提供了借鉴。

📄 摘要(原文)

Generative agents have been increasingly used to simulate human behaviour in silico, driven by large language models (LLMs). These simulacra serve as sandboxes for studying human behaviour without compromising privacy or safety. However, it remains unclear whether such agents can truly represent real individuals. This work compares survey data from the Understanding America Study (UAS) on healthcare decision-making with simulated responses from generative agents. Using demographic-based prompt engineering, we create digital twins of survey respondents and analyse how well different LLMs reproduce real-world behaviours. Our findings show that some LLMs fail to reflect realistic decision-making, such as predicting universal vaccine acceptance. However, Llama 3 captures variations across race and Income more accurately but also introduces biases not present in the UAS data. This study highlights the potential of generative agents for behavioural research while underscoring the risks of bias from both LLMs and prompting strategies.