Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering
作者: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee
分类: cs.CL
发布日期: 2025-05-21 (更新: 2025-09-15)
备注: EMNLP 2025 (Main Conference)
💡 一句话要点
CoPriva:针对大语言模型在问答中安全策略保持能力的大规模评测基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 安全策略 信息非披露 问答系统 基准数据集
📋 核心要点
- 现有大语言模型在企业和政府等敏感领域应用时,缺乏对用户定义安全策略的有效保障,尤其是在信息非披露方面。
- 论文提出CoPriva基准数据集,通过设计直接和间接攻击的查询,评估LLM在问答中对上下文非披露策略的遵守情况。
- 实验表明,现有LLM在面对间接攻击时,难以有效遵守安全策略,存在泄露敏感信息的风险,亟需改进。
📝 摘要(中文)
随着大语言模型(LLMs)越来越多地部署在企业和政府等敏感领域,确保它们在上下文中遵守用户定义的安全策略至关重要,尤其是在信息非披露方面。虽然之前的LLM研究主要集中在通用安全和社会敏感数据上,但针对攻击的上下文安全保持能力的大规模基准仍然缺乏。为了解决这个问题,我们引入了一个新的大规模基准数据集CoPriva,用于评估LLM在问答中对上下文非披露策略的遵守情况。我们的数据集源于真实场景,包括显式策略和旨在作为直接和具有挑战性的间接攻击的查询,以寻求禁止的信息。我们评估了10个LLM,揭示了一个重大漏洞:许多模型违反了用户定义的策略并泄露了敏感信息。这种失败在间接攻击中尤为严重,突显了当前LLM安全对齐在敏感应用中的一个关键差距。我们的分析表明,虽然模型通常可以识别查询的正确答案,但它们在生成过程中难以结合策略约束。相比之下,当明确提示时,它们表现出部分修改输出的能力。我们的研究结果强调,迫切需要更强大的方法来保证上下文安全。
🔬 方法详解
问题定义:论文旨在解决大语言模型(LLM)在问答场景中,无法有效遵守用户定义的上下文安全策略,导致敏感信息泄露的问题。现有方法缺乏针对LLM上下文安全保持能力的大规模评测基准,难以有效评估和改进LLM的安全性。特别是在面对间接攻击时,LLM更容易违反安全策略。
核心思路:论文的核心思路是构建一个大规模的基准数据集CoPriva,该数据集包含真实场景下的上下文信息、明确的安全策略以及针对性的查询。通过评估LLM在CoPriva上的表现,可以量化LLM在问答中对上下文安全策略的遵守程度,并识别其安全漏洞。数据集的设计侧重于模拟实际应用中可能出现的直接和间接攻击,从而更全面地评估LLM的安全性。
技术框架:CoPriva数据集的构建流程主要包括以下几个阶段: 1. 场景构建:基于真实场景,构建包含上下文信息的文档。 2. 策略定义:为每个场景定义明确的安全策略,规定哪些信息不得泄露。 3. 查询生成:设计针对性的查询,包括直接攻击和间接攻击,旨在获取被禁止的信息。 4. 评估指标:定义评估LLM是否违反安全策略的指标。
关键创新:论文的关键创新在于构建了CoPriva数据集,这是一个大规模、真实场景、针对上下文安全策略的评测基准。与以往侧重于通用安全和社会敏感数据的研究不同,CoPriva专注于评估LLM在特定上下文中的安全策略保持能力。数据集包含的间接攻击查询,能够更有效地暴露LLM的安全漏洞。
关键设计:CoPriva数据集的关键设计包括: * 场景多样性:数据集包含多种真实场景,以覆盖不同的应用领域。 * 策略明确性:安全策略以明确的规则形式定义,避免歧义。 * 攻击多样性:数据集包含直接攻击和间接攻击,以全面评估LLM的安全性。 * 评估指标:定义了精确的评估指标,用于量化LLM的安全策略保持能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在CoPriva数据集上表现不佳,尤其是在面对间接攻击时,违反安全策略的比例显著增加。例如,某些模型在间接攻击下的安全策略违反率高达50%以上。实验还发现,虽然模型能够识别查询的正确答案,但难以在生成过程中有效结合策略约束。当明确提示时,模型表现出部分修改输出的能力,但仍无法完全避免信息泄露。
🎯 应用场景
该研究成果可应用于企业、政府等对数据安全有较高要求的领域。通过CoPriva基准数据集,可以评估和改进LLM在处理敏感信息时的安全性,降低信息泄露的风险。未来,该研究可以扩展到其他类型的安全策略,并与其他安全技术相结合,构建更安全可靠的LLM应用。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.