Propaganda via AI? A Study on Semantic Backdoors in Large Language Models
作者: Nay Myat Min, Long H. Pham, Yige Li, Jun Sun
分类: cs.CL
发布日期: 2025-04-15
备注: 18 pages, 1 figure
🔗 代码/项目: GITHUB
💡 一句话要点
提出RAVEN框架,用于检测大型语言模型中基于语义的后门攻击。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 语义后门 后门检测 黑盒攻击 模型安全
📋 核心要点
- 现有后门防御主要关注token级别的异常,忽略了语义层面的隐蔽触发,导致模型易受语义后门攻击。
- 提出RAVEN框架,结合语义熵和跨模型一致性分析,通过探测、聚类和比较,检测模型中语义后门的存在。
- 实验证明,RAVEN框架能够有效发现GPT-4o、Llama等多种LLM中先前未被检测到的语义后门,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLMs)在各种语言任务中表现出卓越的性能,但它们仍然容易受到后门攻击,攻击者植入隐藏的触发器,系统地操纵模型输出。传统的防御方法侧重于显式的token级别异常,因此忽略了语义后门——嵌入在概念层面的隐蔽触发器(例如,意识形态立场或文化参考),这些触发器依赖于基于意义的线索,而不是词汇上的古怪之处。我们首先在一个受控的微调环境中表明,这种语义后门只需少量中毒语料库即可植入,从而确立了它们的实际可行性。然后,我们形式化了LLM中语义后门的概念,并引入了一个黑盒检测框架RAVEN(“响应异常警戒,用于发现语义后门”的缩写),它结合了语义熵和跨模型一致性分析。该框架使用结构化的主题-视角提示来探测多个模型,通过双向蕴含对采样的响应进行聚类,并标记异常统一的输出;跨模型比较将模型特定的异常与语料库范围的偏差隔离开来。在不同的LLM家族(GPT-4o、Llama、DeepSeek、Mistral)上的实证评估发现了以前未被检测到的语义后门,提供了这些隐藏漏洞的第一个概念验证证据,并强调了对已部署的语言模型进行概念级别审计的迫切需要。我们在https://github.com/NayMyatMin/RAVEN开源了我们的代码和数据。
🔬 方法详解
问题定义:论文旨在解决大型语言模型中语义后门难以检测的问题。现有后门防御方法主要关注token级别的异常,而忽略了语义层面的隐蔽触发,使得攻击者可以通过植入基于概念或意义的后门来操纵模型输出,现有方法难以有效防御这种攻击。
核心思路:RAVEN的核心思路是通过分析模型对特定主题和视角的响应,检测响应中的异常一致性。如果一个模型在面对不同视角时,对同一主题的响应表现出异常的统一性,则可能表明该模型受到了语义后门的影响。这种方法利用了语义熵和跨模型一致性分析来区分正常的模型行为和被后门操纵的行为。
技术框架:RAVEN框架包含以下主要阶段:1) 提示生成:生成结构化的主题-视角提示,用于探测LLM。2) 响应采样:使用这些提示从多个LLM中采样响应。3) 响应聚类:通过双向蕴含关系对响应进行聚类,将语义相似的响应归为一类。4) 异常检测:计算每个簇的语义熵,并进行跨模型一致性分析,标记异常统一的输出。
关键创新:RAVEN的关键创新在于其能够检测语义层面的后门,而不仅仅是token级别的异常。它通过结合语义熵和跨模型一致性分析,有效地识别出被后门操纵的模型行为。此外,RAVEN是一个黑盒检测框架,不需要访问模型的内部参数或训练数据,使其具有更广泛的适用性。
关键设计:在提示生成阶段,需要精心设计主题和视角的选择,以确保能够充分探测模型的语义理解能力。在响应聚类阶段,双向蕴含关系的阈值需要根据具体任务进行调整,以平衡聚类的精度和召回率。在异常检测阶段,语义熵的计算方法和跨模型一致性分析的策略需要根据不同的模型和数据集进行优化。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RAVEN框架能够成功检测出GPT-4o、Llama、DeepSeek、Mistral等多种LLM中先前未被发现的语义后门。通过对不同主题和视角的探测,RAVEN能够有效地识别出被后门操纵的模型行为,并将其与正常的模型响应区分开来。该研究为LLM的安全评估和防御提供了新的思路和方法。
🎯 应用场景
该研究成果可应用于大型语言模型的安全审计和漏洞挖掘,帮助开发者和用户识别并修复模型中潜在的语义后门。通过RAVEN框架,可以提高LLM在信息安全、内容生成、智能客服等领域的可靠性和安全性,防止恶意信息传播和不当内容生成,保障用户权益。
📄 摘要(原文)
Large language models (LLMs) demonstrate remarkable performance across myriad language tasks, yet they remain vulnerable to backdoor attacks, where adversaries implant hidden triggers that systematically manipulate model outputs. Traditional defenses focus on explicit token-level anomalies and therefore overlook semantic backdoors-covert triggers embedded at the conceptual level (e.g., ideological stances or cultural references) that rely on meaning-based cues rather than lexical oddities. We first show, in a controlled finetuning setting, that such semantic backdoors can be implanted with only a small poisoned corpus, establishing their practical feasibility. We then formalize the notion of semantic backdoors in LLMs and introduce a black-box detection framework, RAVEN (short for "Response Anomaly Vigilance for uncovering semantic backdoors"), which combines semantic entropy with cross-model consistency analysis. The framework probes multiple models with structured topic-perspective prompts, clusters the sampled responses via bidirectional entailment, and flags anomalously uniform outputs; cross-model comparison isolates model-specific anomalies from corpus-wide biases. Empirical evaluations across diverse LLM families (GPT-4o, Llama, DeepSeek, Mistral) uncover previously undetected semantic backdoors, providing the first proof-of-concept evidence of these hidden vulnerabilities and underscoring the urgent need for concept-level auditing of deployed language models. We open-source our code and data at https://github.com/NayMyatMin/RAVEN.