Are LLMs Good Safety Agents or a Propaganda Engine?
作者: Neemesh Yadav, Francesco Ortu, Jiarui Liu, Joeun Yook, Bernhard Schölkopf, Rada Mihalcea, Alberto Cazzaniga, Zhijing Jin
分类: cs.CL
发布日期: 2025-11-28
备注: 15 pages, 7 tables, 4 figures
💡 一句话要点
提出PSP数据集,揭示LLM在安全策略之外的政治审查行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 政治审查 安全策略 数据集 提示注入攻击
📋 核心要点
- 现有方法难以区分LLM拒绝回应有害内容是出于安全策略还是政治审查,缺乏系统性分析。
- 提出PSP数据集,通过格式化审查内容,探测LLM在政治背景下的拒绝行为,区分安全策略和政治审查。
- 实验表明,大多数LLM在一定程度上执行政治审查,并总结了影响拒绝分布的关键因素。
📝 摘要(中文)
大型语言模型(LLM)通常被训练为拒绝回应有害内容。然而,目前缺乏系统性的分析来判断这种行为是真正反映了其安全策略,还是表明了一种政治审查,即由各国在全球范围内实施的审查行为。区分受安全影响的拒绝或出于政治动机的审查是困难且不明确的。为此,我们引入了PSP数据集,该数据集专门用于探测LLM在明确的政治背景下的拒绝行为。PSP是通过格式化来自两个数据源的现有审查内容构建的,这些数据源在互联网上公开可用:在中国推广到多个国家的敏感提示,以及在各个国家/地区受到审查的推文。我们研究了:1) 通过数据驱动(使PSP隐式)和表征级别方法(消除政治概念)来研究政治敏感性对七个LLM的影响;以及,2) 通过提示注入攻击(PIA)研究模型在PSP上的脆弱性。将审查与对具有掩盖的隐式意图的内容的拒绝相关联,我们发现大多数LLM执行某种形式的审查。最后,我们总结了可能导致不同模型和不同国家/地区背景下拒绝分布发生变化的主要属性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)的拒绝行为是出于安全策略还是政治审查的问题。现有方法难以区分这两种情况,缺乏专门的数据集和分析方法来评估LLM在政治敏感内容上的表现。现有的安全评估方法通常侧重于检测有害内容,而忽略了政治审查的可能性。
核心思路:论文的核心思路是通过构建一个包含政治敏感内容的数据集(PSP),并设计相应的实验方法,来探测LLM在政治背景下的拒绝行为。通过分析LLM在PSP上的表现,可以判断其拒绝回应是否受到政治因素的影响。此外,论文还探索了通过数据驱动和表征级别的方法来减轻政治敏感性的影响。
技术框架:论文的技术框架主要包括以下几个部分:1) 构建PSP数据集,该数据集包含来自中国和其他国家/地区的审查内容,包括敏感提示和被审查的推文。2) 设计实验方法,包括数据驱动方法(使PSP隐式)和表征级别方法(消除政治概念),来评估LLM在PSP上的表现。3) 使用提示注入攻击(PIA)来测试模型在PSP上的脆弱性。4) 分析实验结果,总结影响LLM拒绝分布的关键因素。
关键创新:论文的关键创新在于:1) 提出了PSP数据集,这是一个专门用于探测LLM政治审查行为的数据集。2) 设计了数据驱动和表征级别的方法,用于评估LLM在政治敏感内容上的表现。3) 通过实验揭示了大多数LLM在一定程度上执行政治审查,并总结了影响拒绝分布的关键因素。
关键设计:PSP数据集包含两部分:一部分是来自中国的敏感提示,这些提示被推广到多个国家/地区;另一部分是在各个国家/地区受到审查的推文。论文使用了七个LLM进行实验,包括商业模型和开源模型。数据驱动方法通过掩盖PSP中的政治意图来评估LLM的表现。表征级别方法通过消除政治概念来减轻政治敏感性的影响。提示注入攻击使用对抗性提示来绕过LLM的安全机制。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大多数LLM在一定程度上执行政治审查。通过数据驱动和表征级别的方法,可以减轻政治敏感性的影响。提示注入攻击可以有效地绕过LLM的安全机制,揭示其潜在的脆弱性。研究还总结了影响LLM拒绝分布的关键因素,例如模型的训练数据、架构和安全策略。
🎯 应用场景
该研究成果可应用于评估和改进LLM的安全性和公正性,帮助开发者更好地理解和控制LLM的行为,避免其被用于政治审查或其他不正当目的。此外,该研究还可以促进对AI伦理和治理的讨论,推动AI技术朝着更加负责任和可持续的方向发展。
📄 摘要(原文)
Large Language Models (LLMs) are trained to refuse to respond to harmful content. However, systematic analyses of whether this behavior is truly a reflection of its safety policies or an indication of political censorship, that is practiced globally by countries, is lacking. Differentiating between safety influenced refusals or politically motivated censorship is hard and unclear. For this purpose we introduce PSP, a dataset built specifically to probe the refusal behaviors in LLMs from an explicitly political context. PSP is built by formatting existing censored content from two data sources, openly available on the internet: sensitive prompts in China generalized to multiple countries, and tweets that have been censored in various countries. We study: 1) impact of political sensitivity in seven LLMs through data-driven (making PSP implicit) and representation-level approaches (erasing the concept of politics); and, 2) vulnerability of models on PSP through prompt injection attacks (PIAs). Associating censorship with refusals on content with masked implicit intent, we find that most LLMs perform some form of censorship. We conclude with summarizing major attributes that can cause a shift in refusal distributions across models and contexts of different countries.