Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

📄 arXiv: 2509.05739v1 📥 PDF

作者: Hanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-09-06


💡 一句话要点

针对具备推理能力的LLM,提出分解推理中毒攻击,但模型展现出一定鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据中毒攻击 推理攻击 思维链 后门鲁棒性

📋 核心要点

  1. 现有LLM容易受到数据中毒攻击,攻击者可轻易注入后门,影响模型行为。
  2. 论文提出“分解推理中毒”攻击,通过修改推理路径,将触发器分散到多个无害组件中,实现隐蔽攻击。
  3. 实验发现,尽管可以注入分解毒药,但可靠激活它们以改变最终答案非常困难,表明LLM具备一定的后门鲁棒性。

📝 摘要(中文)

早期针对大型语言模型(LLMs)的数据中毒攻击研究表明,后门注入非常容易。最近的LLMs增加了逐步推理能力,从而扩展了攻击面,包括中间的思维链(CoT)及其将问题分解为子问题的固有特性。利用这些向量进行更隐蔽的中毒,我们引入了“分解推理中毒”,其中攻击者仅修改推理路径,保持提示和最终答案的干净,并将触发器拆分到多个单独无害的组件中。有趣的是,虽然仍然可以注入这些分解的毒药,但可靠地激活它们以改变最终答案(而不仅仅是CoT)却出奇地困难。这种困难的出现是因为模型通常可以从在其思维过程中激活的后门中恢复。最终,似乎一种新兴的后门鲁棒性源于这些高级LLMs的推理能力,以及推理和最终答案生成之间的架构分离。

🔬 方法详解

问题定义:论文旨在研究针对具备推理能力的大型语言模型(LLMs)的数据中毒攻击。现有方法主要集中在直接修改输入提示或最终答案,容易被检测。此外,具备推理能力的LLM将问题分解为子问题,为攻击者提供了新的攻击面,即中间的推理链(Chain-of-Thought, CoT)。

核心思路:论文的核心思路是利用LLM的推理过程进行更隐蔽的中毒攻击。通过仅修改推理路径,保持输入提示和最终答案的干净,并将触发器分散到多个单独无害的组件中,从而避免被轻易检测。这种“分解推理中毒”旨在利用LLM在推理过程中的脆弱性,最终影响其输出结果。

技术框架:该研究主要关注LLM的推理过程,特别是CoT。攻击者通过修改CoT中的中间步骤,注入后门。具体流程包括:1)选择目标LLM;2)设计分解的触发器,将其分散到CoT的多个步骤中;3)生成包含中毒数据的训练集,其中只有CoT被修改;4)使用中毒数据训练LLM;5)评估攻击效果,即触发器是否能够改变LLM的最终答案。

关键创新:论文的关键创新在于提出了“分解推理中毒”的概念,即利用LLM的推理过程进行隐蔽的数据中毒攻击。与以往直接修改输入或输出的方法不同,该方法专注于修改中间的推理步骤,从而更难被检测。此外,论文还发现,尽管可以注入分解的毒药,但LLM在推理过程中展现出一定的鲁棒性,能够从后门中恢复。

关键设计:论文的关键设计包括:1)分解触发器:将触发器拆分成多个单独无害的组件,分散到CoT的多个步骤中;2)保持输入和输出的干净:只修改CoT,不修改输入提示和最终答案,以避免被检测;3)评估指标:不仅关注CoT是否被影响,更关注最终答案是否被改变,以评估攻击的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然可以成功注入分解的毒药,但要可靠地激活它们以改变最终答案非常困难。这表明,具备推理能力的LLM在一定程度上能够从后门中恢复,展现出一种新兴的后门鲁棒性。这种鲁棒性可能源于LLM的推理能力以及推理和最终答案生成之间的架构分离。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的安全性,尤其是在推理过程中的鲁棒性。通过了解分解推理中毒攻击的原理和影响,可以开发更有效的防御机制,防止恶意攻击者利用LLM的推理能力进行破坏。此外,该研究也为开发更安全的LLM训练方法提供了新的思路。

📄 摘要(原文)

Early research into data poisoning attacks against Large Language Models (LLMs) demonstrated the ease with which backdoors could be injected. More recent LLMs add step-by-step reasoning, expanding the attack surface to include the intermediate chain-of-thought (CoT) and its inherent trait of decomposing problems into subproblems. Using these vectors for more stealthy poisoning, we introduce ``decomposed reasoning poison'', in which the attacker modifies only the reasoning path, leaving prompts and final answers clean, and splits the trigger across multiple, individually harmless components. Fascinatingly, while it remains possible to inject these decomposed poisons, reliably activating them to change final answers (rather than just the CoT) is surprisingly difficult. This difficulty arises because the models can often recover from backdoors that are activated within their thought processes. Ultimately, it appears that an emergent form of backdoor robustness is originating from the reasoning capabilities of these advanced LLMs, as well as from the architectural separation between reasoning and final answer generation.