An Analysis of Large Language Models for Simulating User Responses in Surveys

📄 arXiv: 2512.06874v1 📥 PDF

作者: Ziyun Yu, Yiru Zhou, Chen Zhao, Hongyi Wen

分类: cs.CL

发布日期: 2025-12-07

备注: Accepted to IJCNLP-AACL 2025 (Main Conference)


💡 一句话要点

分析大型语言模型在模拟调查用户反馈中的表现,并提出CLAIMSIM方法以提升多样性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 用户模拟 调查问卷 观点多样性 人口统计特征

📋 核心要点

  1. 现有大型语言模型在模拟用户观点时存在偏见,无法充分代表不同背景的用户。
  2. 论文提出CLAIMSIM方法,通过从LLM参数知识中提取观点作为上下文输入,以提升回答的多样性。
  3. 实验表明,CLAIMSIM虽然能产生更多样化的回答,但LLM在准确模拟用户方面仍面临挑战。

📝 摘要(中文)

使用大型语言模型(LLM)模拟用户观点越来越受到关注。然而,经过人类反馈强化学习(RLHF)训练的LLM,已知会表现出对主流观点的偏见,引发了对其代表来自不同人口统计和文化背景用户的能力的担忧。本文研究了LLM通过直接提示和思维链提示模拟人类对跨领域调查问题回答的程度。我们进一步提出了一种声明多样化方法CLAIMSIM,该方法从LLM的参数知识中提取观点作为上下文输入。在调查问题回答任务上的实验表明,虽然CLAIMSIM产生了更多样化的回答,但两种方法都难以准确地模拟用户。进一步的分析揭示了两个关键限制:(1)LLM倾向于在不同的人口统计特征中保持固定的观点,并生成单一视角的声明;(2)当面对相互冲突的声明时,LLM难以推理人口统计特征之间的细微差异,限制了它们根据特定用户配置文件调整响应的能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在模拟用户对调查问卷的回答时,由于其固有的偏见和缺乏对不同人口统计特征的敏感性,导致无法准确反映真实用户观点的问题。现有方法,如直接提示和思维链提示,无法有效解决LLM的偏见问题,导致模拟结果的准确性和多样性不足。

核心思路:论文的核心思路是通过引入CLAIMSIM方法,利用LLM自身的参数知识来生成更多样化的观点,并将其作为上下文信息输入到LLM中,从而引导LLM产生更符合特定用户画像的回答。CLAIMSIM旨在克服LLM在不同人口统计特征中保持固定观点以及难以推理细微差异的局限性。

技术框架:CLAIMSIM方法主要包含以下几个阶段:1. 观点提取:利用LLM的参数知识,生成多个与调查问题相关的观点或声明。2. 观点选择:根据用户画像,选择与该用户最相关的观点。3. 上下文输入:将选择的观点作为上下文信息输入到LLM中。4. 答案生成:LLM基于上下文信息生成针对调查问题的回答。

关键创新:CLAIMSIM的关键创新在于利用LLM自身的参数知识来生成多样化的观点,并将其作为上下文信息来引导LLM的回答。这与传统的直接提示或思维链提示方法不同,后者主要依赖于预定义的提示模板,而忽略了LLM自身所蕴含的丰富知识。通过CLAIMSIM,可以有效地提升LLM生成回答的多样性和准确性。

关键设计:CLAIMSIM的具体实现细节包括:1. 使用特定的提示语来引导LLM生成观点,例如“请列出关于[调查问题]的5个不同观点”。2. 使用用户画像中的人口统计特征(如年龄、性别、教育程度等)来选择与用户最相关的观点。3. 将选择的观点以自然语言的形式添加到提示语中,例如“考虑到用户是[年龄]岁的[性别],并且受过[教育程度]的教育,请回答以下问题:[调查问题]”。4. 使用标准的语言模型生成技术来生成最终的回答。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CLAIMSIM方法能够产生比直接提示和思维链提示更多样化的回答。然而,实验也揭示了LLM在准确模拟用户方面仍存在挑战,尤其是在处理不同人口统计特征和相互冲突的观点时。这表明,尽管CLAIMSIM能够提升回答的多样性,但仍需要进一步的研究来提高LLM模拟用户观点的准确性。

🎯 应用场景

该研究成果可应用于市场调研、舆情分析、个性化推荐等领域。通过更准确地模拟用户观点,可以帮助企业更好地了解用户需求,制定更有效的营销策略,并提供更个性化的服务。未来,该方法还可以扩展到其他需要模拟人类行为的领域,例如智能客服、虚拟助手等。

📄 摘要(原文)

Using Large Language Models (LLMs) to simulate user opinions has received growing attention. Yet LLMs, especially trained with reinforcement learning from human feedback (RLHF), are known to exhibit biases toward dominant viewpoints, raising concerns about their ability to represent users from diverse demographic and cultural backgrounds. In this work, we examine the extent to which LLMs can simulate human responses to cross-domain survey questions through direct prompting and chain-of-thought prompting. We further propose a claim diversification method CLAIMSIM, which elicits viewpoints from LLM parametric knowledge as contextual input. Experiments on the survey question answering task indicate that, while CLAIMSIM produces more diverse responses, both approaches struggle to accurately simulate users. Further analysis reveals two key limitations: (1) LLMs tend to maintain fixed viewpoints across varying demographic features, and generate single-perspective claims; and (2) when presented with conflicting claims, LLMs struggle to reason over nuanced differences among demographic features, limiting their ability to adapt responses to specific user profiles.