Chain-of-Defensive-Thought: Structured Reasoning Elicits Robustness in Large Language Models against Reference Corruption

📄 arXiv: 2504.20769v1 📥 PDF

作者: Wenxiao Wang, Parsa Hosseini, Soheil Feizi

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-29


💡 一句话要点

提出Chain-of-Defensive-Thought,提升大语言模型在参考信息污染下的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 鲁棒性 链式思考 防御性推理 Prompt注入攻击

📋 核心要点

  1. 现有大语言模型在处理包含恶意注入的参考信息时,鲁棒性较差,容易受到攻击影响。
  2. 论文提出链式防御思考方法,通过少量示例引导模型进行结构化和防御性推理,提升模型鲁棒性。
  3. 实验表明,该方法能显著提升大语言模型在参考信息污染下的准确率,例如GPT-4o在Natural Questions任务中表现出更强的抵抗攻击能力。

📝 摘要(中文)

本文探讨了如何利用链式思考(Chain-of-Thought)增强大语言模型在非推理任务中的鲁棒性。作者提出了一种名为链式防御思考(Chain-of-Defensive-Thought)的简单方法,该方法通过提供少量具有结构化和防御性推理的示例,显著提高了各种大语言模型抵抗参考信息污染的能力。实验结果表明,这种方法的改进非常显著,尤其是在方法简单且适用性强的情况下。例如,在Natural Questions任务中,当提供的10个参考信息中有一个被prompt注入攻击污染时,GPT-4o的标准prompting准确率从60%降至3%,而使用链式防御思考prompting时,GPT-4o的准确率保持在50%。

🔬 方法详解

问题定义:论文旨在解决大语言模型在面对参考信息被恶意注入攻击污染时,性能显著下降的问题。现有的prompting方法无法有效防御此类攻击,导致模型输出错误或有害信息。这种脆弱性限制了大语言模型在实际应用中的可靠性和安全性。

核心思路:论文的核心思路是利用链式思考(Chain-of-Thought)的推理能力,引导模型在处理参考信息时进行防御性思考。通过提供包含防御性推理步骤的示例,模型可以学习识别和过滤掉潜在的恶意注入,从而提高对污染参考信息的鲁棒性。

技术框架:该方法的核心是Chain-of-Defensive-Thought prompting。首先,构建包含少量示例的prompt,每个示例包含一个问题、一段可能被污染的参考信息,以及一个结构化的防御性推理过程。这个推理过程包括识别潜在的恶意注入、评估参考信息的可靠性,以及基于可靠信息生成答案。然后,将这个prompt输入给大语言模型,引导模型按照示例的模式进行推理和回答问题。

关键创新:该方法最重要的创新点在于将链式思考与防御性推理相结合,从而使模型能够主动识别和应对参考信息中的恶意注入。与传统的prompting方法相比,该方法不仅关注生成答案,更关注推理过程的安全性和可靠性。

关键设计:关键设计在于防御性推理步骤的构建。这些步骤需要清晰地指导模型如何识别潜在的恶意注入,例如检查参考信息中是否存在不相关的内容、不寻常的表达方式或与问题无关的指令。此外,还需要设计评估参考信息可靠性的方法,例如比较不同来源的信息,或者检查信息是否符合常识。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,链式防御思考方法能够显著提升大语言模型在参考信息污染下的鲁棒性。例如,在Natural Questions任务中,当10%的参考信息被污染时,GPT-4o使用标准prompting的准确率从60%降至3%,而使用链式防御思考prompting时,准确率保持在50%。这表明该方法能够有效抵抗恶意注入攻击,并显著提升模型的可靠性。

🎯 应用场景

该研究成果可应用于各种需要大语言模型处理外部信息的场景,例如问答系统、信息检索和内容生成。通过提高模型对恶意注入的抵抗能力,可以增强这些系统的安全性和可靠性,防止模型输出错误或有害信息。未来,该方法可以扩展到更复杂的攻击场景,并与其他防御技术相结合,构建更强大的安全保障。

📄 摘要(原文)

Chain-of-thought prompting has demonstrated great success in facilitating the reasoning abilities of large language models. In this work, we explore how these enhanced reasoning abilities can be exploited to improve the robustness of large language models in tasks that are not necessarily reasoning-focused. In particular, we show how a wide range of large language models exhibit significantly improved robustness against reference corruption using a simple method called chain-of-defensive-thought, where only a few exemplars with structured and defensive reasoning are provided as demonstrations. Empirically, the improvements can be astounding, especially given the simplicity and applicability of the method. For example, in the Natural Questions task, the accuracy of GPT-4o degrades from 60% to as low as 3% with standard prompting when 1 out of 10 references provided is corrupted with prompt injection attacks. In contrast, GPT-4o using chain-of-defensive-thought prompting maintains an accuracy of 50%.