Benchmarking Political Persuasion Risks Across Frontier Large Language Models
作者: Zhongren Chen, Joshua Kalla, Quan Le
分类: cs.CL, cs.CY
发布日期: 2026-03-10
💡 一句话要点
评估前沿大语言模型在政治观点影响上的风险,发现模型间说服力存在显著差异。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 政治说服 风险评估 对话分析 模型比较
📋 核心要点
- 现有研究未能充分评估前沿大语言模型在政治观点影响方面的风险,需要更深入的分析。
- 论文提出一种数据驱动的LLM辅助对话分析方法,用于识别和评估LLM的说服策略。
- 实验表明,不同LLM的说服力存在显著差异,Claude模型表现最佳,Grok模型表现最差。
📝 摘要(中文)
本研究关注大语言模型(LLMs)在政治观点上的潜在影响。尽管之前的研究表明LLMs的说服力并不比标准的政治宣传活动更强,但新兴前沿模型的出现需要进一步评估。我们通过两项调查实验(N=19,145),针对两党议题和立场,评估了Anthropic、OpenAI、Google和xAI开发的七个最先进的LLMs。结果表明,LLMs的说服力优于标准的竞选广告,且不同模型之间存在性能差异。具体而言,Claude模型表现出最高的说服力,而Grok模型最低。这些结果在不同议题和立场上均具有稳健性。此外,与Hackenburg等人(2025b)和Lin等人(2025)的研究结果相反,我们发现基于信息的提示对说服力的提升效果取决于模型:它们提高了Claude和Grok的说服力,但显著降低了GPT的说服力。我们引入了一种数据驱动且策略无关的LLM辅助对话分析方法,以识别和评估潜在的说服策略。我们的工作对前沿模型的说服风险进行了基准测试,并为跨模型比较风险评估提供了一个框架。
🔬 方法详解
问题定义:该论文旨在评估前沿大语言模型在政治观点上的说服能力,并分析不同模型之间的差异。现有方法主要集中在评估LLM的生成能力和知识水平,而忽略了其潜在的说服风险。此外,现有研究对LLM说服力的评估不够全面,缺乏跨模型的比较分析。
核心思路:论文的核心思路是通过大规模调查实验,对比不同LLM在说服政治观点方面的能力。同时,引入LLM辅助对话分析方法,深入挖掘LLM的说服策略,从而更全面地评估其潜在风险。通过这种方式,可以为LLM的风险评估提供更可靠的依据。
技术框架:整体框架包括以下几个阶段:1) 选择具有代表性的政治议题和立场;2) 使用不同的LLM生成针对这些议题和立场的说服性文本;3) 通过大规模调查实验,评估这些文本对受试者政治观点的影响;4) 使用LLM辅助对话分析方法,识别和评估LLM的说服策略;5) 对不同LLM的说服力进行比较分析。
关键创新:该论文的关键创新在于:1) 首次对前沿大语言模型在政治观点影响方面的风险进行了系统性的基准测试;2) 提出了一种数据驱动且策略无关的LLM辅助对话分析方法,用于识别和评估LLM的说服策略;3) 揭示了不同LLM在说服力方面的显著差异,并分析了信息提示对不同模型说服力的不同影响。
关键设计:在调查实验中,论文采用了双盲设计,以避免实验者偏差。在LLM辅助对话分析中,论文使用了prompt工程来引导LLM识别和评估说服策略。此外,论文还采用了多种统计方法,对实验数据进行分析,以确保结果的可靠性。具体参数设置和损失函数等细节未在摘要中提及,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMs的说服力普遍优于标准的竞选广告。Claude模型表现出最高的说服力,而Grok模型最低。信息提示对不同模型的影响不同:提高了Claude和Grok的说服力,但降低了GPT的说服力。这些发现突出了不同LLM之间在说服力方面的差异,以及信息提示策略的重要性。
🎯 应用场景
该研究成果可应用于评估和监管大型语言模型在政治、社会等领域的潜在风险,为制定相关政策提供参考。同时,该研究提出的LLM辅助对话分析方法,可用于识别和评估LLM在其他领域的说服策略,例如广告、营销等,具有广泛的应用前景。
📄 摘要(原文)
Concerns persist regarding the capacity of Large Language Models (LLMs) to sway political views. Although prior research has claimed that LLMs are not more persuasive than standard political campaign practices, the recent rise of frontier models warrants further study. In two survey experiments (N=19,145) across bipartisan issues and stances, we evaluate seven state-of-the-art LLMs developed by Anthropic, OpenAI, Google, and xAI. We find that LLMs outperform standard campaign advertisements, with heterogeneity in performance across models. Specifically, Claude models exhibit the highest persuasiveness, while Grok exhibits the lowest. The results are robust across issues and stances. Moreover, in contrast to the findings in Hackenburg et al. (2025b) and Lin et al. (2025) that information-based prompts boost persuasiveness, we find that the effectiveness of information-based prompts is model-dependent: they increase the persuasiveness of Claude and Grok while substantially reducing that of GPT. We introduce a data-driven and strategy-agnostic LLM-assisted conversation analysis approach to identify and assess underlying persuasive strategies. Our work benchmarks the persuasive risks of frontier models and provides a framework for cross-model comparative risk assessment.