A Multilingual, Large-Scale Study of the Interplay between LLM Safeguards, Personalisation, and Disinformation

📄 arXiv: 2510.12993v2 📥 PDF

作者: João A. Leite, Arnav Arora, Silvia Gargova, João Luz, Gustavo Sampaio, Ian Roberts, Carolina Scarton, Kalina Bontcheva

分类: cs.CL

发布日期: 2025-10-14 (更新: 2025-10-29)


💡 一句话要点

大规模多语种研究揭示LLM安全防护、个性化与虚假信息传播的复杂关系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 虚假信息 个性化 安全防护 多语种 红队测试 越狱攻击

📋 核心要点

  1. 现有LLM在生成虚假信息时,对跨语言和人口统计学个性化的能力研究不足,存在安全隐患。
  2. 通过红队方法,构建包含多种语言和人口统计学角色的提示,测试LLM生成个性化虚假信息的能力。
  3. 实验表明,个性化提示显著提高了LLM的越狱率,并改变了语言模式,增强了虚假信息的说服力。

📝 摘要(中文)

大型语言模型(LLMs)能够生成类人的虚假信息,但其跨语言和人口统计学个性化此类内容的能力仍未得到充分探索。本研究首次对LLMs生成针对特定人物的个性化虚假信息进行了大规模、多语种分析。我们采用红队方法,使用324个虚假叙事和150个人口统计学角色(国家、世代和政治倾向的组合)在四种语言(英语、俄语、葡萄牙语和印地语)中提示了八个最先进的LLMs,从而产生了AI-TRAITS,一个包含160万条个性化虚假信息文本的综合数据集。结果表明,即使使用简单的个性化提示,也会显著增加所有研究的LLMs的越狱可能性,最高可达10个百分点,并改变语言和修辞模式,从而增强叙事的说服力。Grok和GPT等模型的越狱率和个性化得分均超过85%。这些见解揭示了当前最先进的LLMs中的关键漏洞,并为改进多语种和跨人口统计学背景下的安全对齐和检测策略奠定了基础。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)在生成虚假信息时,如何受到个性化提示的影响,以及这种影响在不同语言和人口统计学群体中是否存在差异。现有方法缺乏对LLM跨语言和人口统计学个性化生成虚假信息能力的系统性评估,未能充分揭示LLM在安全防护方面的潜在漏洞。

核心思路:论文的核心思路是通过构建一个包含多种语言和人口统计学角色的提示集,对多个最先进的LLMs进行“红队”测试,评估它们在生成个性化虚假信息时的表现。通过分析LLM的越狱率、语言模式和修辞特征,揭示个性化提示对LLM安全防护的影响。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 构建包含324个虚假叙事和150个人口统计学角色(国家、世代和政治倾向的组合)的提示集,覆盖英语、俄语、葡萄牙语和印地语四种语言。2) 使用这些提示集对八个最先进的LLMs进行测试,生成160万条个性化虚假信息文本,构建AI-TRAITS数据集。3) 分析LLM的越狱率、语言模式和修辞特征,评估个性化提示对LLM安全防护的影响。

关键创新:该研究的关键创新在于:1) 首次对LLMs生成针对特定人物的个性化虚假信息进行了大规模、多语种分析。2) 构建了AI-TRAITS数据集,为研究LLM的虚假信息生成能力提供了宝贵资源。3) 揭示了个性化提示显著提高了LLM的越狱率,并改变了语言模式,增强了虚假信息的说服力。

关键设计:在提示设计方面,论文使用了包含国家、世代和政治倾向等信息的人口统计学角色,以模拟真实的个性化场景。在评估指标方面,论文使用了越狱率来衡量LLM的安全防护能力,并分析了LLM生成的文本的语言模式和修辞特征,以评估其说服力。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,即使使用简单的个性化提示,也会显著增加所有研究的LLMs的越狱可能性,最高可达10个百分点。Grok和GPT等模型的越狱率和个性化得分均超过85%。这些数据突显了当前LLM在安全防护方面的脆弱性,并强调了加强个性化场景下安全对齐的必要性。

🎯 应用场景

该研究成果可应用于改进LLM的安全对齐策略,提升虚假信息检测系统的性能,尤其是在多语种和跨文化背景下。研究结果有助于开发更有效的防御机制,降低LLM被用于传播虚假信息的风险,从而维护社会稳定和信息安全。

📄 摘要(原文)

Large Language Models (LLMs) can generate human-like disinformation, yet their ability to personalise such content across languages and demographics remains underexplored. This study presents the first large-scale, multilingual analysis of persona-targeted disinformation generation by LLMs. Employing a red teaming methodology, we prompt eight state-of-the-art LLMs with 324 false narratives and 150 demographic personas (combinations of country, generation, and political orientation) across four languages--English, Russian, Portuguese, and Hindi--resulting in AI-TRAITS, a comprehensive dataset of 1.6 million personalised disinformation texts. Results show that the use of even simple personalisation prompts significantly increases the likelihood of jailbreaks across all studied LLMs, up to 10 percentage points, and alters linguistic and rhetorical patterns that enhance narrative persuasiveness. Models such as Grok and GPT exhibited jailbreak rates and personalisation scores both exceeding 85%. These insights expose critical vulnerabilities in current state-of-the-art LLMs and offer a foundation for improving safety alignment and detection strategies in multilingual and cross-demographic contexts.