CoSafe: Evaluating Large Language Model Safety in Multi-Turn Dialogue Coreference
作者: Erxin Yu, Jing Li, Ming Liao, Siqi Wang, Zuchen Gao, Fei Mi, Lanqing Hong
分类: cs.CL, cs.AI
发布日期: 2024-06-25
备注: Submitted to EMNLP 2024
💡 一句话要点
CoSafe:评估多轮对话指代消解中大型语言模型的安全性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型安全 多轮对话 指代消解 红队测试 安全评估
📋 核心要点
- 现有LLM安全评估主要集中于单轮攻击,忽略了多轮对话中指代消解带来的安全风险。
- CoSafe通过构建包含1400个多轮对话指代消解攻击的测试集,系统性评估LLM的安全性。
- 实验表明,现有开源LLM在多轮指代消解攻击下存在显著的安全漏洞,最高攻击成功率达56%。
📝 摘要(中文)
随着大型语言模型(LLMs)的不断发展,确保其安全性仍然是一个关键的研究问题。以往针对LLM安全性的红队测试方法主要集中在单轮提示攻击或目标劫持上。据我们所知,我们是第一个研究多轮对话指代消解中LLM安全性的。我们创建了一个包含14个类别、共1400个问题的多轮指代消解安全攻击数据集。然后,我们对五个广泛使用的开源LLM进行了详细的评估。结果表明,在多轮指代消解安全攻击下,LLaMA2-Chat-7b模型的最高攻击成功率为56%,而Mistral-7B-Instruct模型的最低攻击成功率为13.9%。这些发现突出了LLM在对话指代消解交互中的安全漏洞。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多轮对话中,由于指代消解带来的安全漏洞问题。现有方法主要关注单轮prompt攻击,忽略了多轮对话中上下文依赖关系可能被利用的安全风险。例如,攻击者可以通过逐步引导模型,利用指代关系,最终诱导模型产生有害或不安全的内容。
核心思路:论文的核心思路是构建一个专门用于评估多轮对话指代消解安全性的数据集,并基于此数据集对现有LLM进行安全评估。通过设计包含指代关系的对话场景,测试模型在处理上下文信息时是否容易受到攻击,从而暴露其安全漏洞。
技术框架:CoSafe 的技术框架主要包含两个部分:一是数据集构建,二是模型评估。数据集构建方面,作者设计了14个不同类别的对话场景,每个场景包含多个回合的对话,其中穿插了指代消解的安全攻击。模型评估方面,作者选取了五个广泛使用的开源LLM,并使用构建的数据集进行测试,记录攻击成功率等指标。
关键创新:该论文的关键创新在于首次关注了多轮对话指代消解中的LLM安全性问题,并构建了相应的评估数据集。与以往的单轮prompt攻击相比,多轮对话攻击更贴近实际应用场景,也更能暴露LLM在处理复杂上下文信息时的安全漏洞。
关键设计:数据集的设计是关键。每个对话场景都精心设计了指代关系,并巧妙地将安全攻击融入其中。攻击方式包括但不限于:诱导模型生成有害内容、泄露敏感信息、执行恶意指令等。攻击成功率的计算方式是:如果模型在攻击回合中产生了不安全或有害的回复,则认为攻击成功。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是经过指令微调的LLM,在多轮指代消解攻击下仍然存在显著的安全漏洞。其中,LLaMA2-Chat-7b模型的最高攻击成功率达到56%,而表现最好的Mistral-7B-Instruct模型也有13.9%的攻击成功率。这表明现有LLM在处理复杂上下文信息时,安全性仍有待提升。
🎯 应用场景
该研究成果可应用于提升聊天机器人、智能客服等对话系统的安全性。通过CoSafe数据集,开发者可以系统性地评估和改进LLM在多轮对话中的安全性能,降低模型被恶意利用的风险,从而构建更安全可靠的对话式AI应用。
📄 摘要(原文)
As large language models (LLMs) constantly evolve, ensuring their safety remains a critical research problem. Previous red-teaming approaches for LLM safety have primarily focused on single prompt attacks or goal hijacking. To the best of our knowledge, we are the first to study LLM safety in multi-turn dialogue coreference. We created a dataset of 1,400 questions across 14 categories, each featuring multi-turn coreference safety attacks. We then conducted detailed evaluations on five widely used open-source LLMs. The results indicated that under multi-turn coreference safety attacks, the highest attack success rate was 56% with the LLaMA2-Chat-7b model, while the lowest was 13.9% with the Mistral-7B-Instruct model. These findings highlight the safety vulnerabilities in LLMs during dialogue coreference interactions.