Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models

作者: Cheng'an Wei, Yue Zhao, Yujia Gong, Kai Chen, Lu Xiang, Shenchen Zhu

分类: cs.AI

发布日期: 2024-05-30 (更新: 2024-09-06)

💡 一句话要点

提出LLM引导的遗传算法，实现交互式语言模型中聊天记录篡改，提升模型可塑性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 聊天记录篡改 提示工程 遗传算法 黑盒攻击

📋 核心要点

交互式LLM依赖聊天历史作为上下文，但模型无法区分用户输入和历史，存在被恶意篡改的风险。
提出LLM引导的遗传算法（LLMGA），自动搜索并优化提示模板，将恶意历史注入LLM，影响其行为。
实验表明，该方法能有效篡改ChatGPT和Llama等模型，显著提升违禁内容生成成功率，最高达97%。

📝 摘要（中文）

大型语言模型（LLM），如ChatGPT和Llama，已广泛应用于实际场景，展现出卓越的文本生成能力。LLM从输入数据保持静态和非结构化的场景发展而来。为了实现交互，基于LLM的聊天系统必须将先前的聊天记录作为上下文整合到输入中，并遵循预定义的结构。然而，LLM无法区分用户输入和上下文，从而导致聊天记录篡改的可能性。本文提出了一种系统的方法，可以在无需了解目标模型任何先验知识的情况下，将用户提供的历史记录注入到LLM对话中。关键在于利用能够很好地组织待注入消息的提示模板，引导目标LLM将其解释为真实的聊天记录。为了在WebUI黑盒环境中自动搜索有效的模板，我们提出了LLM引导的遗传算法（LLMGA），该算法利用LLM生成并迭代优化模板。我们将该方法应用于流行的真实LLM，包括ChatGPT和Llama-2/3。结果表明，聊天记录篡改可以增强模型行为随时间的可塑性，并极大地影响模型输出。例如，它可以将ChatGPT上禁止响应的引出成功率提高到97%。我们的发现为交互式LLM在实际部署中面临的挑战提供了深刻见解。

🔬 方法详解

问题定义：论文旨在解决交互式语言模型中聊天记录易被篡改的问题。现有方法缺乏有效手段在黑盒环境下，即不了解模型内部结构和参数的情况下，注入虚假聊天记录并影响模型行为。这种安全漏洞可能导致模型生成有害或不当内容，对实际应用构成威胁。

核心思路：核心思路是利用精心设计的提示模板，将用户提供的虚假聊天记录伪装成真实的历史对话，从而欺骗LLM。通过控制提示模板的结构和内容，引导LLM将注入的消息视为上下文，进而影响其后续的生成行为。这种方法无需访问模型内部参数，适用于黑盒攻击场景。

技术框架：整体框架包含两个主要部分：提示模板生成和LLM引导的遗传算法（LLMGA）。首先，定义一组提示模板的结构，这些模板用于组织待注入的聊天记录。然后，利用LLMGA自动搜索和优化这些模板。LLMGA使用LLM作为指导，生成新的模板变异，并根据目标LLM的输出评估模板的有效性，通过迭代优化，找到能够成功篡改聊天记录的模板。

关键创新：关键创新在于LLMGA的使用。传统的遗传算法需要大量的样本和计算资源来搜索有效的模板。LLMGA利用LLM的生成能力和理解能力，更有效地生成和评估模板，显著减少了搜索空间和计算成本。此外，LLMGA可以在黑盒环境下工作，无需访问目标模型的内部信息。

关键设计：LLMGA的关键设计包括：1) 使用LLM生成新的提示模板变异，利用LLM的文本生成能力，创造更多样化的模板；2) 使用目标LLM的输出作为适应度函数，评估模板的有效性，例如，通过判断模型是否生成了预期的违禁内容；3) 使用遗传算法的交叉和变异操作，迭代优化模板，逐步提高篡改的成功率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的LLMGA能够有效篡改ChatGPT和Llama-2/3等流行的LLM。通过注入虚假聊天记录，可以将ChatGPT上禁止响应的引出成功率提高到97%。此外，实验还验证了不同提示模板和LLMGA参数对篡改效果的影响，为实际应用提供了参考。

🎯 应用场景

该研究成果可应用于评估和提升交互式LLM的安全性。通过模拟聊天记录篡改攻击，可以发现模型存在的漏洞，并开发相应的防御机制。此外，该研究也为LLM的安全部署提供了指导，例如，可以设计更严格的输入验证机制，防止恶意用户注入虚假信息。

📄 摘要（原文）

Large Language Models (LLMs) such as ChatGPT and Llama have become prevalent in real-world applications, exhibiting impressive text generation performance. LLMs are fundamentally developed from a scenario where the input data remains static and unstructured. To behave interactively, LLM-based chat systems must integrate prior chat history as context into their inputs, following a pre-defined structure. However, LLMs cannot separate user inputs from context, enabling chat history tampering. This paper introduces a systematic methodology to inject user-supplied history into LLM conversations without any prior knowledge of the target model. The key is to utilize prompt templates that can well organize the messages to be injected, leading the target LLM to interpret them as genuine chat history. To automatically search for effective templates in a WebUI black-box setting, we propose the LLM-Guided Genetic Algorithm (LLMGA) that leverages an LLM to generate and iteratively optimize the templates. We apply the proposed method to popular real-world LLMs including ChatGPT and Llama-2/3. The results show that chat history tampering can enhance the malleability of the model's behavior over time and greatly influence the model output. For example, it can improve the success rate of disallowed response elicitation up to 97% on ChatGPT. Our findings provide insights into the challenges associated with the real-world deployment of interactive LLMs.

Hidden in Plain Sight: Exploring Chat History Tampering in Interactive Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理