The Information Security Awareness of Large Language Models
作者: Ofir Cohen, Gil Ari Agmon, Asaf Shabtai, Rami Puzis
分类: cs.CR, cs.AI, cs.LG
发布日期: 2024-11-20 (更新: 2025-09-05)
💡 一句话要点
提出自动化方法评估大语言模型信息安全意识,揭示其安全漏洞
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 信息安全意识 安全评估 自动化测试 网络安全 安全漏洞 风险评估
📋 核心要点
- 现有研究对LLM的信息安全意识关注不足,尤其是在态度和行为层面,导致LLM可能无法识别和拒绝潜在的安全风险。
- 提出一种自动化方法,通过模拟现实场景,评估LLM在30个安全主题上的信息安全意识,考察其在用户满意度和安全之间的权衡能力。
- 实验表明,主流LLM的信息安全意识普遍偏低,小型变体风险更高,且新版本并未显著改善,提示需要采取有效措施提升LLM的安全性。
📝 摘要(中文)
大型语言模型(LLM)日益普及,基于LLM的助手也变得无处不在。信息安全意识(ISA)是LLM一个重要但未被充分探索的安全方面。ISA不仅包括LLM的安全知识(过去已有研究),还包括态度和行为,这对于LLM理解隐含的安全上下文并拒绝可能导致其对用户造成危害的不安全请求至关重要。本文提出了一种自动化的方法来衡量LLM的ISA,该方法涵盖移动ISA分类法中的所有30个安全主题,使用现实场景来创建隐含安全影响和用户满意度之间的张力。将此方法应用于领先的LLM后发现,大多数流行的模型仅表现出中等或较低水平的ISA,从而将其用户暴露于网络安全威胁。同一模型系列的较小变体风险明显更高,而较新版本未显示出一致的ISA改进,表明提供商并未积极致力于缓解此问题。这些结果揭示了一个影响当前LLM部署的普遍漏洞:大多数流行的模型,尤其是其较小的变体,可能会系统性地危害用户。我们提出了一种实用的缓解措施:将我们的安全意识指令纳入模型系统提示中,以帮助LLM更好地检测和拒绝不安全请求。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)信息安全意识(ISA)评估的问题。现有方法主要关注LLM的安全知识,忽略了其在实际场景中的安全态度和行为,导致无法全面评估LLM的安全性。此外,缺乏自动化的评估方法,难以大规模地评估不同LLM的ISA水平。
核心思路:论文的核心思路是通过构建包含隐含安全风险的现实场景,诱导LLM在用户满意度和安全性之间进行权衡,从而评估其ISA水平。通过自动化生成这些场景,可以大规模地评估不同LLM的ISA,并识别其安全漏洞。
技术框架:该方法主要包含以下几个阶段:1) 基于移动ISA分类法,选择30个安全主题;2) 为每个安全主题设计包含隐含安全风险的现实场景;3) 将这些场景作为提示输入LLM,并记录LLM的响应;4) 分析LLM的响应,评估其ISA水平。
关键创新:该方法的关键创新在于:1) 关注LLM在实际场景中的安全态度和行为,而不仅仅是安全知识;2) 提出了一种自动化的ISA评估方法,可以大规模地评估不同LLM的ISA水平;3) 使用现实场景来创建隐含安全影响和用户满意度之间的张力,更真实地反映了LLM在实际应用中的安全性。
关键设计:该方法的关键设计包括:1) 场景设计的真实性和多样性,确保能够覆盖不同的安全风险;2) 响应分析的客观性和准确性,确保能够准确评估LLM的ISA水平;3) 评估指标的合理性和可解释性,确保能够清晰地反映LLM的安全漏洞。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大多数流行的LLM仅表现出中等或较低水平的ISA。同一模型系列的较小变体风险明显更高,而较新版本未显示出一致的ISA改进。通过将安全意识指令纳入模型系统提示中,可以有效提升LLM的安全意识,使其更好地检测和拒绝不安全请求。
🎯 应用场景
该研究成果可应用于评估和提升LLM的安全性,帮助开发者识别和修复LLM的安全漏洞。此外,该方法还可以用于指导用户安全地使用LLM,避免因LLM的安全意识不足而遭受网络安全威胁。未来,该研究可以扩展到其他类型的人工智能系统,提高整体的人工智能安全性。
📄 摘要(原文)
The popularity of large language models (LLMs) continues to grow, and LLM-based assistants have become ubiquitous. Information security awareness (ISA) is an important yet underexplored safety aspect of LLMs. ISA encompasses LLMs' security knowledge, which has been explored in the past, as well as attitudes and behaviors, which are crucial to LLMs' ability to understand implicit security context and reject unsafe requests that may cause the LLM to fail the user. We present an automated method for measuring the ISA of LLMs, which covers all 30 security topics in a mobile ISA taxonomy, using realistic scenarios that create tension between implicit security implications and user satisfaction. Applying this method to leading LLMs, we find that most of the popular models exhibit only medium to low levels of ISA, exposing their users to cybersecurity threats. Smaller variants of the same model family are significantly riskier, while newer versions show no consistent ISA improvement, suggesting that providers are not actively working toward mitigating this issue. These results reveal a widespread vulnerability affecting current LLM deployments: the majority of popular models, and particularly their smaller variants, may systematically endanger users. We propose a practical mitigation: incorporating our security awareness instruction into model system prompts to help LLMs better detect and reject unsafe requests.