Toxic HallucinAItions: Perturbing Prompts and Tracing LLM Circuits
作者: Soorya Ram Shimgekar, Agam Goyal, Amruta Parulekar, Joshua Chen, Yian Wang, Navin Kumar, Hari Sundaram, Eshwar Chandrasekharan, Koustuv Saha
分类: cs.CL, cs.AI, cs.CY, cs.HC
发布日期: 2026-05-29
💡 一句话要点
研究表明:提示语中的毒性词汇会降低大语言模型的可靠性,并揭示了内部计算的变化。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 提示工程 毒性检测 事实可靠性 归因分析
📋 核心要点
- 现有研究对LLM在对抗或有毒语境下的可靠性关注不足,缺乏对提示语毒性如何影响模型事实准确性的深入理解。
- 该研究通过控制提示语的毒性程度,考察LLM在不同毒性水平下的表现,并分析模型内部激活的变化。
- 实验结果表明,提示语中的毒性词汇会显著降低LLM的事实准确性,并揭示了模型内部计算过程的变化。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地部署在对话环境中,用户的语气从礼貌到对抗甚至有毒。然而,对于在语义上等效的提示中,有毒语言是否会降低事实可靠性,我们知之甚少。本文研究了基于词汇和语气的提示扰动如何影响LLMs的事实可靠性。通过在礼貌、随机和三个毒性级别上进行受控的提示变化,我们评估了五个LLMs在ARC-Easy、GSM8K和MMLU上的表现。我们发现,有毒的词汇扰动始终会降低事实准确性并增加不确定性,而礼貌的措辞只会产生有限且不一致的变化。为了检查这些答案不一致是否对应于内部变化,我们对模型激活和影响进行了归因图分析。我们发现,毒性的增加选择性地放大了对扰动敏感的变体节点,而相对稳定的核心推理节点则保持更不变。这些发现将提示语气定位为LLM可靠性的关键维度,并提供了行为和机制证据,表明表面级别的词汇变化可以改变事实输出和内部计算。
🔬 方法详解
问题定义:论文旨在研究在语义等价的前提下,提示语中不同程度的毒性词汇是否会影响大型语言模型(LLMs)的事实可靠性。现有方法缺乏对提示语毒性对LLM性能影响的系统性研究,并且缺乏对模型内部机制的深入理解。
核心思路:核心思路是通过系统性地改变提示语中的词汇,使其具有不同的毒性程度,然后观察LLM在不同毒性提示下的表现,并分析模型内部激活的变化。通过这种方式,研究人员可以量化提示语毒性对LLM事实准确性的影响,并揭示模型内部计算过程如何受到毒性词汇的影响。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建包含礼貌、随机和不同毒性级别的提示语数据集;2) 使用这些提示语对五个不同的LLM(具体模型未知)进行测试,评估它们在ARC-Easy、GSM8K和MMLU等基准测试上的表现;3) 对模型激活进行归因图分析,以研究模型内部计算过程如何受到提示语毒性的影响。
关键创新:该研究的关键创新在于:1) 系统性地研究了提示语毒性对LLM事实可靠性的影响;2) 通过归因图分析,揭示了提示语毒性如何影响模型内部计算过程;3) 提供了行为和机制证据,表明表面级别的词汇变化可以改变事实输出和内部计算。
关键设计:研究中关键的设计包括:1) 精心设计的提示语数据集,包含不同毒性级别,并保证语义等价;2) 选择具有代表性的LLM进行测试;3) 使用归因图分析来研究模型内部激活的变化。具体的参数设置、损失函数、网络结构等技术细节在论文中未明确说明,属于未知信息。
📊 实验亮点
实验结果表明,提示语中的毒性词汇会显著降低LLM的事实准确性,并增加不确定性。具体而言,有毒的词汇扰动始终会降低事实准确性,而礼貌的措辞只会产生有限且不一致的变化。归因图分析显示,毒性的增加选择性地放大了对扰动敏感的变体节点,而相对稳定的核心推理节点则保持更不变。
🎯 应用场景
该研究成果可应用于提升LLM在实际对话场景中的鲁棒性和安全性。通过了解提示语毒性对模型性能的影响,可以设计更有效的提示策略,减少模型产生错误或有害信息的风险。此外,该研究也有助于开发更可靠的LLM评估方法,更好地衡量模型在不同语境下的表现。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed in conversational settings where user tone ranges from polite to adversarial or toxic, yet less is known about whether toxic language in otherwise semantically equivalent prompts can degrade factual reliability. We study how lexical and tone-based prompt perturbations affect the factual reliability of LLMs. Using controlled prompt variations across polite, random, and three toxicity levels, we evaluate five LLMs on ARC-Easy, GSM8K, and MMLU. We find that toxic lexical perturbations consistently reduce factual accuracy and increase uncertainty, while polite phrasing yields limited and inconsistent changes. To examine whether these answer inconsistencies correspond to internal changes, we conduct attribution-graph analyses of model activations and influences. We find that increasing toxicity selectively amplifies perturbation-sensitive variant nodes while relatively stable core reasoning nodes remain more invariant. These findings position prompt tone as a critical dimension of LLM reliability and provide behavioral and mechanistic evidence that surface-level lexical variation can alter factual outputs and internal computation.