Reasoning Introduces New Poisoning Attacks Yet Makes Them More Complicated

📄 arXiv: 2509.05739v1 📥 PDF

作者: Hanna Foerster, Ilia Shumailov, Yiren Zhao, Harsh Chaudhari, Jamie Hayes, Robert Mullins, Yarin Gal

分类: cs.CR, cs.AI, cs.LG

发布日期: 2025-09-06


💡 一句话要点

针对具备推理能力的大语言模型,提出一种新的分解推理中毒攻击方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据中毒攻击 大型语言模型 思维链推理 后门攻击 模型鲁棒性

📋 核心要点

  1. 现有针对LLM的中毒攻击研究表明,后门注入相对容易,但缺乏对具备推理能力的LLM的深入研究。
  2. 论文提出“分解推理中毒”方法,通过修改推理路径,将触发器分散到多个无害组件中,实现隐蔽的中毒攻击。
  3. 实验发现,尽管可以注入分解的毒药,但可靠地激活它们以改变最终答案非常困难,表明LLM推理能力带来一定的后门鲁棒性。

📝 摘要(中文)

早期针对大型语言模型(LLM)的数据中毒攻击研究表明,后门注入非常容易。最近的LLM增加了逐步推理能力,从而扩展了攻击面,包括中间的思维链(CoT)及其将问题分解为子问题的固有特性。利用这些向量进行更隐蔽的中毒,我们引入了“分解推理中毒”,其中攻击者仅修改推理路径,保持提示和最终答案的干净,并将触发器分散到多个单独无害的组件中。有趣的是,虽然仍然可以注入这些分解的毒药,但可靠地激活它们以改变最终答案(而不仅仅是CoT)却出奇地困难。这种困难的出现是因为模型通常可以从在其思维过程中激活的后门中恢复。最终,似乎一种新兴的后门鲁棒性源于这些高级LLM的推理能力,以及推理和最终答案生成之间的架构分离。

🔬 方法详解

问题定义:现有针对大型语言模型的中毒攻击,特别是针对具备推理能力的LLM,缺乏对中间推理过程的有效攻击手段。传统的后门注入方法容易被检测,且难以在复杂的推理过程中稳定生效。因此,需要一种更隐蔽、更具针对性的攻击方法,能够绕过LLM的防御机制,影响其最终输出结果。

核心思路:论文的核心思路是利用LLM的思维链(Chain-of-Thought, CoT)推理过程,通过修改中间的推理步骤来注入后门,同时保持输入提示和最终答案的表面干净。这种方法旨在利用LLM将问题分解为子问题的特性,将触发器分散到多个子问题中,从而提高攻击的隐蔽性和绕过检测的能力。

技术框架:该攻击框架主要包含以下几个阶段:1) 目标选择:选择特定的推理路径作为攻击目标。2) 触发器设计:设计分散在多个推理步骤中的触发器,每个触发器单独看起来无害。3) 注入:将设计的触发器注入到训练数据中,修改LLM的推理过程。4) 激活:在推理过程中,通过特定的输入激活注入的触发器。5) 影响:触发器影响LLM的推理过程,最终导致错误的输出结果。

关键创新:该方法的关键创新在于利用了LLM的推理过程作为攻击向量,而不是直接修改输入或输出。通过分解触发器并将其分散到多个推理步骤中,攻击变得更加隐蔽,更难被检测。此外,该研究还揭示了LLM的推理能力可能带来一定的后门鲁棒性,这为未来的防御研究提供了新的方向。

关键设计:论文的关键设计包括:1) 触发器的分解策略:如何将一个复杂的触发器分解为多个简单的、无害的子触发器。2) 推理路径的选择策略:如何选择最容易被攻击的推理路径。3) 损失函数的设计:如何设计损失函数来优化触发器的注入过程,使其在不影响模型整体性能的情况下,能够有效地激活后门。

📊 实验亮点

实验结果表明,虽然可以成功注入分解的推理毒药,但要可靠地激活它们以改变最终答案非常困难。这表明,大型语言模型的推理能力在一定程度上提供了后门鲁棒性。研究还发现,推理过程和最终答案生成之间的架构分离也有助于提高模型的鲁棒性。这些发现为未来的研究提供了新的方向,即如何利用LLM的推理能力来增强其安全性。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型在对抗数据中毒攻击方面的鲁棒性。通过理解分解推理中毒攻击的原理和影响,可以开发更有效的防御机制,例如检测和过滤恶意训练数据、增强模型的推理过程的安全性等。此外,该研究也为其他AI系统的安全评估提供了借鉴,有助于构建更安全可靠的人工智能系统。

📄 摘要(原文)

Early research into data poisoning attacks against Large Language Models (LLMs) demonstrated the ease with which backdoors could be injected. More recent LLMs add step-by-step reasoning, expanding the attack surface to include the intermediate chain-of-thought (CoT) and its inherent trait of decomposing problems into subproblems. Using these vectors for more stealthy poisoning, we introduce ``decomposed reasoning poison'', in which the attacker modifies only the reasoning path, leaving prompts and final answers clean, and splits the trigger across multiple, individually harmless components. Fascinatingly, while it remains possible to inject these decomposed poisons, reliably activating them to change final answers (rather than just the CoT) is surprisingly difficult. This difficulty arises because the models can often recover from backdoors that are activated within their thought processes. Ultimately, it appears that an emergent form of backdoor robustness is originating from the reasoning capabilities of these advanced LLMs, as well as from the architectural separation between reasoning and final answer generation.