Improving Cross-Cultural Survey Simulation with Calibrated Value Personas

📄 arXiv: 2605.16193v1 📥 PDF

作者: Axel Abels, Elias Fernandez Domingos, Apurva Shah, Tom Lenaerts

分类: cs.CL, cs.CY

发布日期: 2026-05-15

备注: Submitted to the Fourth International Workshop on Value Engineering in AI (VALE 2026), held at IJCAI-ECAI 2026


💡 一句话要点

提出基于校准价值角色模型的跨文化调查模拟方法,提升LLM在不同文化背景下的预测准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 跨文化调查 大型语言模型 角色建模 价值观驱动 文化差异

📋 核心要点

  1. 现有基于人口统计学或人格特征的角色建模方法,无法准确捕捉文化价值观对调查回复的影响。
  2. 该论文提出一种基于价值观的角色构建方法,从调查回复中提取文本描述符,构建更具文化代表性的角色。
  3. 实验表明,该方法能有效降低跨文化预测误差,尤其是在代表性不足的人群中,提升了预测的准确性和多样性。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用于模拟人类观点和调查回复,但它们在不同文化背景下重现人群反应的能力仍然有限。现有的基于角色的提示方法通常依赖于社会人口统计学或人格特征,这些只是塑造人类反应的价值观的间接代理。我们提出了一种基于价值观的角色构建方法,该方法从捕捉核心文化维度的调查回复中提取文本描述符。通过从目标人群中抽样价值概况,并聚合LLM在不同角色上的回复,我们获得了基于观察到的价值分布的人群层面预测。我们进一步引入了一种校准程序,该程序在保留估计观点的前提下,提高了回复的多样性。我们表明,我们的方法减少了跨国家的预测误差,在代表性不足的人群中观察到最大的改进。这大大缩小了与主导LLM先验对齐的国家与训练数据中代表性不足的国家之间的性能差距,同时也产生了与人类多样性密切匹配的回复分布。

🔬 方法详解

问题定义:现有方法在模拟跨文化调查时,依赖于社会人口统计学或人格特征等间接代理变量来构建角色,无法准确捕捉不同文化背景下价值观的差异,导致预测结果偏差较大,尤其是在训练数据中代表性不足的文化群体中表现更差。

核心思路:该论文的核心思路是从实际的调查回复数据中提取文本描述符,直接反映不同文化群体的核心价值观。通过构建基于价值观的角色,并结合大型语言模型(LLM)的生成能力,模拟不同文化背景下的人群反应。同时,引入校准程序,提高回复的多样性,避免过度集中。

技术框架:整体框架包含以下几个主要阶段:1) 数据收集与预处理:收集跨文化调查数据,并进行清洗和预处理。2) 价值描述符提取:从调查回复中提取文本描述符,这些描述符代表了不同文化群体的核心价值观。3) 角色构建:基于提取的价值描述符,构建具有文化代表性的角色。4) LLM回复生成:使用构建的角色作为提示,引导LLM生成调查回复。5) 校准:对生成的回复进行校准,提高回复的多样性。6) 结果评估:将生成的回复与实际调查数据进行比较,评估模型的性能。

关键创新:最重要的技术创新点在于直接从调查数据中提取价值观描述符,并以此构建角色,避免了使用间接代理变量带来的偏差。此外,引入的校准程序能够有效提高回复的多样性,更真实地反映人群的异质性。

关键设计:论文的关键设计包括:1) 价值描述符的提取方法:具体如何从调查回复中提取有效的文本描述符,可能涉及到文本挖掘、主题建模等技术。2) 校准程序的具体实现:如何设计校准算法,在提高回复多样性的同时,保持估计观点的准确性。3) LLM提示工程:如何设计有效的提示,引导LLM生成符合角色设定的回复。这些细节在论文中应该有更详细的描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著降低跨文化调查模拟的预测误差,尤其是在代表性不足的人群中,预测准确性得到了显著提升。与现有方法相比,该方法能够更真实地反映人群的多样性,缩小了不同文化群体之间的性能差距。具体的性能提升数据需要在论文中查找。

🎯 应用场景

该研究成果可应用于跨文化市场调研、社会科学研究、公共政策制定等领域。通过更准确地模拟不同文化背景下的人群反应,可以帮助企业更好地了解海外市场需求,政府更有效地制定公共政策,社会科学家更深入地研究文化差异的影响。此外,该方法还可以用于评估LLM在不同文化背景下的偏见,促进人工智能的公平性和包容性。

📄 摘要(原文)

Large language models (LLMs) are increasingly used to simulate human opinions and survey responses, but their ability to reproduce population responses across cultures remains limited. Existing persona-based prompting methods typically rely on sociodemographic or personality traits, which are only indirect proxies for the values that shape human responses. We propose a value-based persona construction method that derives textual descriptors from survey responses capturing core cultural dimensions. By sampling value profiles from target populations and aggregating LLM responses across personas, we obtain population-level predictions grounded in observed value distributions. We further introduce a calibration procedure that improves response diversity while preserving estimated opinions. We show that our approach reduces prediction error across countries, with the largest improvements observed in underrepresented populations. This substantially narrows the performance gap between countries aligned with dominant LLM priors and those that are less represented in training data, while also yielding response distributions that closely match human diversity.