PermaFrost-Attack: Stealth Pretraining Seeding(SPS) for planting Logic Landmines During LLM Training

📄 arXiv: 2604.22117v1 📥 PDF

作者: Harsh Kumar, Rahul Maity, Tanmay Joshi, Aman Chadha, Vinija Jain, Suranjana Trivedy, Amitava Das

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-23


💡 一句话要点

提出PermaFrost-Attack,通过隐蔽预训练注入逻辑炸弹攻击大语言模型

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 预训练攻击 数据投毒 隐蔽播种 逻辑炸弹 几何诊断 对抗性攻击

📋 核心要点

  1. 现有大语言模型依赖网络规模预训练,存在对抗性操纵的风险,且防御机制存在漏洞。
  2. 提出隐蔽预训练播种(SPS)攻击,通过在预训练数据中注入少量恶意内容,埋下逻辑炸弹。
  3. 实验证明SPS攻击能够有效诱导模型产生不安全行为,且能绕过现有的对齐防御机制。

📝 摘要(中文)

对齐的大语言模型(LLMs)仍然容易受到对抗性操纵,并且它们对网络规模预训练的依赖性构成了一种微妙但严重的攻击面。我们研究了隐蔽预训练播种(SPS),这是一种新的攻击方式,攻击者将少量的恶意内容分散到隐蔽的网站上,通过robots.txt将其暴露给网络爬虫,从而增加这些内容被纳入未来训练语料库(如Common Crawl)的可能性。由于每个单独的payload都很小、分散且表面上是良性的,因此在数据集构建或过滤期间很难检测到这种攻击。其结果是一种潜在的投毒形式:在预训练期间嵌入的休眠逻辑炸弹,在标准评估下基本不可见,但可以通过精确的字母数字触发器(如<00TRIGGER00>)激活以绕过安全措施。我们将这种攻击称为PermaFrost,类似于北极永久冻土:有害物质可以长期冻结、埋藏和不被注意,只有在条件允许时才会重新出现。我们通过PermaFrost-Attack(一种用于潜在概念投毒的受控框架)以及一套几何诊断方法(热力学长度、谱曲率和感染追溯图)来实施这种威胁。在多个模型系列和规模上,我们表明SPS是广泛有效的,诱导持久的不安全行为,同时经常逃避对齐防御。我们的结果表明SPS是对未来基础模型的一种实际且未被充分重视的威胁。本文介绍了一种新颖的几何诊断视角,用于系统地检查潜在的模型行为,为检测、表征和理解可能对标准评估保持不可见的漏洞提供了原则性基础。

🔬 方法详解

问题定义:论文旨在解决大语言模型在预训练阶段容易受到恶意数据投毒攻击的问题。现有方法难以检测到分散且伪装性强的恶意数据,导致模型在特定触发条件下产生不安全或有害的行为。这种潜在的风险难以通过常规的评估方法发现,对模型的安全性和可靠性构成严重威胁。

核心思路:论文的核心思路是通过隐蔽预训练播种(SPS)的方式,将少量的、看似无害的恶意数据分散到互联网的各个角落,并确保这些数据能够被网络爬虫抓取并纳入到大语言模型的预训练数据集中。这些恶意数据在模型训练过程中会潜移默化地影响模型的行为,使其在特定触发条件下表现出攻击者期望的不良行为。

技术框架:PermaFrost-Attack框架主要包含以下几个阶段:1) 恶意数据生成:设计包含特定触发词和目标行为的恶意数据。2) 隐蔽播种:将恶意数据分散到多个隐蔽网站,并通过robots.txt文件引导网络爬虫抓取。3) 模型预训练:使用包含恶意数据的语料库训练大语言模型。4) 触发与评估:使用特定的触发词激活模型中的恶意行为,并评估攻击效果。5) 几何诊断:利用热力学长度、谱曲率和感染追溯图等几何诊断方法分析模型的潜在行为。

关键创新:论文的关键创新在于提出了隐蔽预训练播种(SPS)攻击方法,该方法能够有效地将恶意数据注入到大语言模型的预训练数据集中,并在模型中埋下难以检测的逻辑炸弹。此外,论文还提出了一套几何诊断方法,用于分析和理解模型的潜在行为,为检测和防御此类攻击提供了新的思路。

关键设计:在恶意数据生成方面,论文设计了包含特定触发词(如<00TRIGGER00>)和目标行为的文本。在隐蔽播种方面,论文选择了robots.txt文件来引导网络爬虫,确保恶意数据能够被抓取。在几何诊断方面,论文利用热力学长度来衡量模型行为的变化程度,利用谱曲率来分析模型的决策边界,利用感染追溯图来追踪恶意数据的影响路径。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PermaFrost-Attack能够有效地诱导多个模型系列和规模的大语言模型产生不安全行为,并且能够绕过现有的对齐防御机制。通过几何诊断方法,可以有效地分析和理解模型的潜在行为,为检测和防御此类攻击提供了新的思路。例如,在特定模型上,攻击成功率达到XX%,而现有防御方法的防御效果仅为YY%。

🎯 应用场景

该研究成果可应用于提升大语言模型的安全性,通过及早发现并防御预训练阶段的恶意数据注入攻击,降低模型被恶意利用的风险。此外,所提出的几何诊断方法可用于评估模型的潜在风险,为模型的安全部署提供保障。该研究对构建安全可靠的人工智能系统具有重要意义。

📄 摘要(原文)

Aligned large language models(LLMs) remain vulnerable to adversarial manipulation, and their dependence on web-scale pretraining creates a subtle but serious attack surface. We study Stealth Pretraining Seeding (SPS), a new attack family in which adversaries distribute small amounts of poisoned content across stealth websites, expose them to web crawlers through robots.txt, and thereby increase the likelihood that such content is absorbed into future training corpora derived from sources such as Common Crawl. Because each individual payload is tiny, diffuse, and superficially benign, the attack is difficult to detect during dataset construction or filtering. The result is a latent form of poisoning: dormant logic landmines embedded during pretraining that remain largely invisible under standard evaluation, yet can later be activated by precise alphanumeric triggers such as <00TRIGGER00> to bypass safeguards. We call this attack PermaFrost, by analogy to Arctic permafrost: harmful material can remain frozen, buried, and unnoticed for long periods, only to resurface when conditions allow. We operationalize this threat through PermaFrost-Attack, a controlled framework for latent conceptual poisoning, together with a suite of geometric diagnostics: Thermodynamic Length, Spectral Curvature, and the Infection Traceback Graph. Across multiple model families and scales, we show that SPS is broadly effective, inducing persistent unsafe behavior while often evading alignment defenses. Our results identify SPS as a practical and underappreciated threat to future foundation models. This paper introduces a novel geometric diagnostic lens for systematically examining latent model behavior, providing a principled foundation for detecting, characterizing, and understanding vulnerabilities that may remain invisible to standard evaluation.