Can Large Language Models Simulate Human Responses? A Case Study of Stated Preference Experiments in the Context of Heating-related Choices

📄 arXiv: 2503.10652v3 📥 PDF

作者: Han Wang, Jacek Pawlak, Aruna Sivakumar

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-03-07 (更新: 2025-08-22)


💡 一句话要点

利用大型语言模型模拟人类在供暖选择偏好实验中的行为

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 陈述偏好 能源选择 行为模拟 消费者偏好

📋 核心要点

  1. 传统的陈述偏好调查成本高、耗时,易受受访者疲劳和伦理约束的影响,限制了其应用。
  2. 本研究探索利用大型语言模型模拟消费者在能源选择中的偏好,旨在降低成本并提高效率。
  3. 实验表明,DeepSeek-R1模型在模拟人类选择方面表现最佳,平均准确率达到77%,优于其他模型。

📝 摘要(中文)

陈述偏好(SP)调查是研究个体在假设或未来情景中如何进行权衡的关键方法。在能源领域,这包括低碳技术、分布式可再生能源发电和需求侧响应等关键的脱碳使能背景。然而,SP调查往往成本高昂、耗时,并且可能受到受访者疲劳和伦理约束的影响。大型语言模型(LLM)在生成类人文本响应方面表现出卓越的能力,引发了人们对其在调查研究中应用的日益增长的兴趣。本研究探讨了使用LLM来模拟消费者在能源相关SP调查中的选择,并探索了它们与数据分析工作流程的集成。设计了一系列测试场景,以系统地评估几种LLM(LLaMA 3.1、Mistral、GPT-3.5和DeepSeek-R1)在个体和聚合层面的模拟性能,考虑了提示设计、上下文学习(ICL)、思维链(CoT)推理、LLM类型、与传统选择模型的集成以及潜在偏差等上下文因素。研究发现,基于云的LLM并没有始终优于较小的本地模型。DeepSeek-R1推理模型实现了最高的平均准确率(77%),并且在准确率、因素识别和选择分布对齐方面优于非推理LLM。在所有模型中,观察到对燃气锅炉和不改造选项的系统性偏差,以及对更节能替代方案的偏好。研究结果表明,先前的SP选择是最有效的输入因素,而包含额外因素和不同格式的较长提示可能会导致LLM失去焦点,从而降低准确性。

🔬 方法详解

问题定义:本研究旨在解决传统陈述偏好(SP)调查中成本高昂、耗时且易受主观因素影响的问题。现有方法难以快速、经济地获取大量消费者在能源选择方面的偏好数据,阻碍了相关政策制定和技术推广。

核心思路:核心思路是利用大型语言模型(LLM)强大的文本生成和推理能力,模拟消费者在SP调查中的选择行为。通过精心设计的提示和上下文学习,使LLM能够理解并模拟人类在特定情境下的决策过程。

技术框架:研究设计了一系列测试场景,系统评估了不同LLM(LLaMA 3.1、Mistral、GPT-3.5和DeepSeek-R1)的模拟性能。评估过程包括:1) 设计不同类型的提示,包括包含先前选择、附加因素和不同格式的提示;2) 使用上下文学习(ICL)和思维链(CoT)推理技术;3) 将LLM的输出与传统选择模型集成;4) 分析LLM的潜在偏差。

关键创新:本研究的关键创新在于探索了LLM在模拟人类能源选择偏好方面的潜力,并系统地评估了不同LLM在不同条件下的性能。研究发现,推理模型DeepSeek-R1表现最佳,且LLM存在对特定选项的系统性偏差。

关键设计:研究中,提示的设计至关重要。研究发现,包含先前SP选择的提示效果最佳,而过长或包含过多信息的提示反而会降低LLM的准确性。此外,研究还探索了ICL和CoT等技术对LLM性能的影响,并分析了不同LLM的偏差。

📊 实验亮点

DeepSeek-R1模型在模拟人类能源选择偏好方面表现最佳,平均准确率达到77%,显著优于其他非推理LLM。研究还发现,LLM存在对燃气锅炉和不改造选项的系统性偏差,表明LLM可能受到训练数据的影响。此外,包含先前SP选择的提示效果最佳,而过长或包含过多信息的提示反而会降低LLM的准确性。

🎯 应用场景

该研究成果可应用于能源政策制定、新型能源技术的市场推广以及需求侧响应策略的设计。通过LLM模拟消费者选择,可以更快速、经济地获取市场反馈,辅助决策者制定更有效的政策,加速能源转型进程。未来,该方法还可扩展到其他领域,如交通、医疗等,为社会科学研究提供新的工具。

📄 摘要(原文)

Stated preference (SP) surveys are a key method to research how individuals make trade-offs in hypothetical, also futuristic, scenarios. In energy context this includes key decarbonisation enablement contexts, such as low-carbon technologies, distributed renewable energy generation, and demand-side response [1,2]. However, they tend to be costly, time-consuming, and can be affected by respondent fatigue and ethical constraints. Large language models (LLMs) have demonstrated remarkable capabilities in generating human-like textual responses, prompting growing interest in their application to survey research. This study investigates the use of LLMs to simulate consumer choices in energy-related SP surveys and explores their integration into data analysis workflows. A series of test scenarios were designed to systematically assess the simulation performance of several LLMs (LLaMA 3.1, Mistral, GPT-3.5 and DeepSeek-R1) at both individual and aggregated levels, considering contexts factors such as prompt design, in-context learning (ICL), chain-of-thought (CoT) reasoning, LLM types, integration with traditional choice models, and potential biases. Cloud-based LLMs do not consistently outperform smaller local models. In this study, the reasoning model DeepSeek-R1 achieves the highest average accuracy (77%) and outperforms non-reasoning LLMs in accuracy, factor identification, and choice distribution alignment. Across models, systematic biases are observed against the gas boiler and no-retrofit options, with a preference for more energy-efficient alternatives. The findings suggest that previous SP choices are the most effective input factor, while longer prompts with additional factors and varied formats can cause LLMs to lose focus, reducing accuracy.