Using Large Language Models to Create AI Personas for Replication, Generalization and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings

📄 arXiv: 2408.16073v2 📥 PDF

作者: Leo Yeykelis, Kaavya Pichai, James J. Cummings, Byron Reeves

分类: cs.CL, cs.AI

发布日期: 2024-08-28 (更新: 2025-04-24)

备注: 40 pages, 13 figures, 3 tables


💡 一句话要点

利用大型语言模型创建AI角色,用于复制、推广和预测媒体影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 AI角色 实验复制 营销研究 媒体效果 可重复性 可泛化性

📋 核心要点

  1. 社会科学研究面临可重复性和泛化性挑战,传统方法耗时且成本高昂。
  2. 利用大型语言模型(LLM)创建AI角色,模拟人类参与者,加速实验复制和泛化。
  3. 实验表明,LLM成功复制了76%的主要效应,验证了AI辅助复制的潜力,但存在局限性。

📝 摘要(中文)

本报告分析了大型语言模型(LLM)在加速准确复制和推广已发表的营销信息效果研究方面的潜力。通过复制《市场营销杂志》上发表的14篇论文中包含的45项最新研究的133项实验结果,测试了基于LLM的参与者(角色)。对于每项研究,使用测量方法、刺激和抽样规范来生成提示,使LLM充当独特的角色。在所有研究中,总共19447个AI角色生成了完整的数据集,然后将统计分析结果与原始人类研究结果进行比较。LLM复制成功地重现了76%的原始主要效应(111个中的84个),证明了AI辅助复制的强大潜力。包括交互效应在内的总体复制率为68%(133个中的90个)。此外,对人类结果如何推广到不同的参与者样本、媒体刺激和测量方法的测试表明,当测试超出原始人类研究的参数时,复制结果可能会发生变化。讨论了对社会科学中复制和推广危机、媒体和营销心理学中理论构建的加速以及消费产品快速信息测试的实际优势的影响。解决了AI复制在复杂交互效应、AI模型中的偏差以及建立营销研究中AI指标基准方面的局限性。

🔬 方法详解

问题定义:当前社会科学,特别是营销领域的研究,面临着可重复性和可泛化性的危机。传统的实验复制方法耗时且成本高昂,难以验证研究结果的可靠性和适用范围。现有方法难以快速、低成本地评估营销信息的效果,阻碍了理论发展和实践应用。

核心思路:本研究的核心思路是利用大型语言模型(LLM)的强大生成能力,创建模拟人类参与者的AI角色(personas)。通过向LLM提供实验的测量方法、刺激和抽样规范,使其扮演不同的角色,生成完整的数据集。然后,将AI角色生成的数据与原始人类研究的数据进行比较,评估LLM在复制和泛化研究结果方面的能力。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 从《市场营销杂志》选取包含实验研究的论文;2) 提取每项研究的测量方法、刺激和抽样规范;3) 基于提取的信息,为LLM生成提示,使其扮演不同的AI角色;4) LLM根据提示生成完整的数据集;5) 对AI角色生成的数据进行统计分析;6) 将统计分析结果与原始人类研究结果进行比较,评估复制率和泛化能力。

关键创新:本研究的关键创新在于将大型语言模型应用于社会科学研究的复制和泛化。与传统的实验方法相比,使用LLM创建AI角色可以显著降低成本和时间,并能够快速生成大量数据。此外,该研究还探索了LLM在模拟不同人群和情境下的行为方面的潜力,为研究社会科学问题提供了一种新的工具。

关键设计:研究中使用了在《市场营销杂志》上发表的14篇论文中的45项研究,共计133项实验结果。针对每项研究,都精心设计了LLM的提示,以确保AI角色能够准确地模拟人类参与者的行为。研究人员使用了GPT-3等大型语言模型,并对模型的参数进行了调整,以获得最佳的生成效果。此外,研究还采用了多种统计指标来评估复制率和泛化能力,例如主要效应的复制率和交互效应的复制率。

📊 实验亮点

研究成功复制了76%的原始主要效应(111个中的84个),总体复制率(包括交互效应)为68%(133个中的90个)。这表明LLM在复制营销实验结果方面具有强大的潜力。研究还发现,当测试超出原始人类研究的参数时,复制结果可能会发生变化,强调了在推广研究结果时需要谨慎。

🎯 应用场景

该研究成果可应用于营销、广告、公共关系等领域,加速信息效果测试,降低研究成本。企业可利用AI角色快速评估广告语、产品包装等对不同人群的影响,优化营销策略。此外,该方法还可用于社会科学研究,验证理论,探索新的研究方向。

📄 摘要(原文)

This report analyzes the potential for large language models (LLMs) to expedite accurate replication and generalization of published research about message effects in marketing. LLM-powered participants (personas) were tested by replicating 133 experimental findings from 14 papers containing 45 recent studies published in the Journal of Marketing. For each study, the measures, stimuli, and sampling specifications were used to generate prompts for LLMs to act as unique personas. The AI personas, 19,447 in total across all of the studies, generated complete datasets and statistical analyses were then compared with the original human study results. The LLM replications successfully reproduced 76% of the original main effects (84 out of 111), demonstrating strong potential for AI-assisted replication. The overall replication rate including interaction effects was 68% (90 out of 133). Furthermore, a test of how human results generalized to different participant samples, media stimuli, and measures showed that replication results can change when tests go beyond the parameters of the original human studies. Implications are discussed for the replication and generalizability crises in social science, the acceleration of theory building in media and marketing psychology, and the practical advantages of rapid message testing for consumer products. Limitations of AI replications are addressed with respect to complex interaction effects, biases in AI models, and establishing benchmarks for AI metrics in marketing research.