Synthesizing Public Opinions with LLMs: Role Creation, Impacts, and the Future to eDemorcacy

📄 arXiv: 2504.00241v1 📥 PDF

作者: Rabimba Karanjai, Boris Shor, Amanda Austin, Ryan Kennedy, Yang Lu, Lei Xu, Weidong Shi

分类: cs.CL, cs.AI

发布日期: 2025-03-31


💡 一句话要点

利用大型语言模型合成公众意见,解决传统调查方法中的偏差问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公众意见合成 角色创建 知识注入 检索增强生成

📋 核心要点

  1. 传统调查方法面临响应率下降和无应答偏差等问题,导致数据质量下降。
  2. 论文提出基于知识注入的角色创建方法,利用RAG和人格模型,动态生成提示,模拟多样化意见。
  3. 实验表明,该方法显著提高了LLM生成意见与真实人类调查响应的一致性,提升了答案的依从性。

📝 摘要(中文)

本文探讨了使用大型语言模型(LLM)合成公众意见数据的方法,旨在解决传统调查方法中存在的挑战,如响应率下降和无应答偏差。我们提出了一种新颖的技术:基于知识注入的角色创建,这是一种上下文学习形式,利用RAG(检索增强生成)和来自HEXACO模型的特定人格特征以及人口统计信息,并将其用于动态生成的提示。这种方法使LLM能够比现有的提示工程方法更准确地模拟不同的意见。我们将我们的结果与使用标准少量样本提示的预训练模型进行比较。使用合作选举研究(CES)中的问题进行的实验表明,我们的角色创建方法显著提高了LLM生成的意见与真实人类调查响应的一致性,增加了答案的依从性。此外,我们还讨论了挑战、局限性和未来的研究方向。

🔬 方法详解

问题定义:论文旨在解决传统民意调查中存在的偏差问题,例如由于低回复率和回复偏差导致结果不准确。现有的方法,包括直接使用预训练LLM进行few-shot prompting,无法充分捕捉到公众意见的多样性和细微差别。

核心思路:核心思路是通过角色创建来模拟不同的个体,并让LLM扮演这些角色来回答问题。通过注入知识(knowledge injection),即利用检索增强生成(RAG)技术和人格模型(HEXACO),为每个角色赋予特定的人格特征和背景信息,从而使LLM能够生成更具代表性和真实性的回答。

技术框架:整体框架包括以下几个主要步骤:1) 基于HEXACO模型和人口统计信息创建角色;2) 使用RAG从外部知识库中检索与角色相关的信息;3) 将角色信息和检索到的知识注入到LLM的prompt中;4) LLM根据prompt生成回答;5) 将生成的回答与真实人类的调查结果进行比较和评估。

关键创新:最重要的创新点在于角色创建方法,它结合了知识注入和人格建模,使得LLM能够更好地模拟真实人类的思维方式和行为模式。与传统的prompt engineering方法相比,该方法能够更有效地控制LLM的输出,并提高生成结果的准确性和可靠性。

关键设计:论文使用了HEXACO人格模型来定义角色的人格特征,并使用RAG技术从外部知识库中检索与角色相关的信息。Prompt的设计至关重要,需要包含角色的基本信息、人格特征、检索到的知识以及问题本身。论文通过实验验证了不同prompt设计对结果的影响,并选择了最优的prompt模板。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于角色创建的方法显著提高了LLM生成意见与真实人类调查响应的一致性。具体而言,该方法能够增加答案的依从性,使得LLM的回答更接近真实人类的回答。与使用标准少量样本提示的预训练模型相比,该方法在模拟公众意见方面表现出更强的优势。

🎯 应用场景

该研究成果可应用于电子民主(eDemocracy)领域,例如模拟公众意见、预测选举结果、评估政策影响等。通过更准确地合成公众意见,可以为政府决策提供更可靠的依据,促进更民主和透明的社会治理。此外,该技术还可以应用于市场调研、舆情分析等领域。

📄 摘要(原文)

This paper investigates the use of Large Language Models (LLMs) to synthesize public opinion data, addressing challenges in traditional survey methods like declining response rates and non-response bias. We introduce a novel technique: role creation based on knowledge injection, a form of in-context learning that leverages RAG and specified personality profiles from the HEXACO model and demographic information, and uses that for dynamically generated prompts. This method allows LLMs to simulate diverse opinions more accurately than existing prompt engineering approaches. We compare our results with pre-trained models with standard few-shot prompts. Experiments using questions from the Cooperative Election Study (CES) demonstrate that our role-creation approach significantly improves the alignment of LLM-generated opinions with real-world human survey responses, increasing answer adherence. In addition, we discuss challenges, limitations and future research directions.