Leveraging Interview-Informed LLMs to Model Survey Responses: Comparative Insights from AI-Generated and Human Data
作者: Jihong Zhang, Xinya Liang, Anqi Deng, Nicole Bonge, Lin Tan, Ling Zhang, Nicole Zarrett
分类: cs.CL
发布日期: 2025-05-28
💡 一句话要点
利用访谈信息增强的大语言模型模拟调查问卷回复,对比分析AI生成数据与人类数据。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 调查问卷 混合方法研究 定性数据 定量数据 访谈信息 合成数据 社会科学
📋 核心要点
- 混合方法研究难以整合定量与定性数据,尤其是在分析测量特征和个体反应模式时。
- 本研究利用访谈信息指导LLM生成合成调查回复,探索LLM预测人类回复的可靠性。
- 实验表明LLM能捕捉整体回复模式,但变异性较低;访谈数据和提示设计能提升LLM与人类回复的一致性。
📝 摘要(中文)
混合方法研究整合定量和定性数据,但在对齐其不同结构方面面临挑战,尤其是在检查测量特征和个体反应模式时。大型语言模型(LLM)的进步通过生成受定性数据指导的合成调查回复,提供了有希望的解决方案。本研究以运动行为调节问卷(BREQ)和课后项目工作人员的访谈为例,调查了在个人访谈指导下,LLM是否能可靠地预测人类的调查回复。结果表明,LLM能够捕捉整体回复模式,但变异性低于人类。对于某些模型(如Claude、GPT),纳入访谈数据可提高回复多样性,而精心设计的提示和低温设置可增强LLM与人类回复之间的一致性。人口统计信息对对齐准确性的影响小于访谈内容。这些发现强调了访谈信息增强的LLM在桥接定性和定量方法方面的潜力,同时也揭示了回复变异性、情感解释和心理测量保真度方面的局限性。未来的研究应改进提示设计,探索偏差缓解,并优化模型设置,以提高LLM生成的调查数据在社会科学研究中的有效性。
🔬 方法详解
问题定义:本研究旨在解决混合方法研究中定量和定性数据难以对齐的问题,尤其是在调查问卷研究中,如何利用定性访谈数据来增强对定量调查回复的理解和预测。现有方法缺乏有效整合两种数据类型的手段,难以深入分析个体反应模式和测量特征。
核心思路:核心思路是利用大型语言模型(LLM)生成合成的调查问卷回复,并以定性访谈数据作为LLM的输入信息,从而模拟人类的回复行为。通过比较LLM生成的回复与真实人类的回复,评估LLM在多大程度上能够捕捉到人类的回复模式和变异性。这种方法旨在弥合定性和定量研究之间的差距,并为社会科学研究提供新的数据分析工具。
技术框架:整体框架包括以下几个主要阶段:1) 收集真实人类的调查问卷回复和访谈数据;2) 设计提示(prompts),将访谈信息输入到LLM中,指示LLM生成相应的调查问卷回复;3) 使用不同的LLM模型(例如,Claude、GPT)进行实验;4) 比较LLM生成的回复与真实人类的回复,评估LLM的性能;5) 分析不同因素(例如,访谈内容、人口统计信息、提示设计、模型设置)对LLM性能的影响。
关键创新:最重要的技术创新点在于将访谈信息融入到LLM的提示中,从而使LLM能够生成更具情境感知和个体差异的调查问卷回复。与传统的仅基于定量数据训练的LLM相比,这种方法能够更好地模拟人类的回复行为,并为研究者提供更丰富的研究视角。
关键设计:关键设计包括:1) 精心设计提示,确保访谈信息能够有效地传递给LLM;2) 调整LLM的温度(temperature)参数,控制生成回复的随机性和多样性;3) 使用不同的LLM模型进行实验,比较它们的性能;4) 使用适当的评估指标,量化LLM生成的回复与真实人类回复之间的相似度和差异性。
📊 实验亮点
实验结果表明,LLM能够捕捉到整体的回复模式,但变异性低于人类。纳入访谈数据可以提高某些模型(如Claude、GPT)的回复多样性。精心设计的提示和较低的温度设置可以增强LLM与人类回复之间的一致性。人口统计信息对对齐准确性的影响小于访谈内容。这些发现为未来研究提供了重要的指导。
🎯 应用场景
该研究成果可应用于社会科学、心理学、教育学等领域,用于更深入地理解调查问卷数据,辅助研究者进行假设验证和理论构建。通过模拟不同人群的回复模式,可以预测政策变化或干预措施的效果。此外,该方法还可用于生成合成数据,解决数据隐私问题,促进数据共享和合作研究。
📄 摘要(原文)
Mixed methods research integrates quantitative and qualitative data but faces challenges in aligning their distinct structures, particularly in examining measurement characteristics and individual response patterns. Advances in large language models (LLMs) offer promising solutions by generating synthetic survey responses informed by qualitative data. This study investigates whether LLMs, guided by personal interviews, can reliably predict human survey responses, using the Behavioral Regulations in Exercise Questionnaire (BREQ) and interviews from after-school program staff as a case study. Results indicate that LLMs capture overall response patterns but exhibit lower variability than humans. Incorporating interview data improves response diversity for some models (e.g., Claude, GPT), while well-crafted prompts and low-temperature settings enhance alignment between LLM and human responses. Demographic information had less impact than interview content on alignment accuracy. These findings underscore the potential of interview-informed LLMs to bridge qualitative and quantitative methodologies while revealing limitations in response variability, emotional interpretation, and psychometric fidelity. Future research should refine prompt design, explore bias mitigation, and optimize model settings to enhance the validity of LLM-generated survey data in social science research.