Beyond the Tip of Efficiency: Uncovering the Submerged Threats of Jailbreak Attacks in Small Language Models

作者: Sibo Yi, Tianshuo Cong, Xinlei He, Qi Li, Jiaxing Song

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-02-27 (更新: 2025-05-26)

备注: Accepted to ACL 2025 findings

💡 一句话要点

揭示小型语言模型越狱攻击的安全威胁，填补安全研究空白。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 越狱攻击 安全性评估 对抗攻击 模型压缩 边缘设备 安全防御

📋 核心要点

现有小型语言模型在边缘设备上广泛应用，但其安全性研究相对滞后，面临潜在的越狱攻击风险。
本研究通过实证评估多种SLMs在不同越狱攻击下的安全性能，揭示了SLMs的安全脆弱性。
论文评估了防御方法的效果，并分析了模型压缩等技术对安全性的影响，为未来研究提供指导。

📝 摘要（中文）

小型语言模型(SLMs)由于其高效率和低计算成本，在边缘设备部署中日益重要。尽管研究人员不断通过创新训练策略和模型压缩技术来提升SLMs的能力，但与大型语言模型(LLMs)相比，SLMs的安全性风险受到的关注明显不足。为了填补这一空白，我们提供了一项全面的实证研究，以评估13个最先进的SLMs在各种越狱攻击下的安全性能。我们的实验表明，大多数SLMs很容易受到现有越狱攻击的影响，其中一些甚至容易受到直接有害提示的影响。为了解决安全问题，我们评估了几种具有代表性的防御方法，并证明了它们在增强SLMs安全性方面的有效性。我们进一步分析了包括架构压缩、量化、知识蒸馏等不同SLM技术可能导致的安全降级。我们希望我们的研究能够突出SLMs的安全挑战，并为未来开发更强大和安全的SLMs提供有价值的见解。

🔬 方法详解

问题定义：论文旨在解决小型语言模型（SLMs）在面对越狱攻击时存在的安全漏洞问题。现有研究主要集中在大型语言模型（LLMs）的安全性上，而忽略了SLMs在边缘设备上的广泛应用所带来的安全风险。现有的SLMs容易受到各种越狱攻击，甚至直接的恶意提示攻击，这使得它们在实际应用中面临严重的安全威胁。

核心思路：论文的核心思路是通过全面的实证研究，评估现有SLMs在各种越狱攻击下的安全性能，从而揭示SLMs的安全脆弱性。此外，论文还评估了现有的防御方法在SLMs上的有效性，并分析了模型压缩等技术对SLMs安全性的影响。通过这些分析，为未来开发更安全、更鲁棒的SLMs提供指导。

技术框架：论文的技术框架主要包括三个部分：首先，选择了13个最先进的SLMs作为评估对象；其次，设计并实施了多种越狱攻击，以评估SLMs的安全性能；最后，评估了几种具有代表性的防御方法，并分析了模型压缩等技术对SLMs安全性的影响。整个流程旨在全面评估SLMs的安全风险，并为未来的安全研究提供参考。

关键创新：论文的关键创新在于首次对SLMs的安全性进行了全面的实证研究，揭示了SLMs在面对越狱攻击时的脆弱性。与以往主要关注LLMs安全性的研究不同，本研究填补了SLMs安全研究的空白，为SLMs的安全防护提供了重要的参考。

关键设计：论文的关键设计包括：1) 选择了具有代表性的13个SLMs，覆盖了不同的模型架构和训练方法；2) 设计了多种越狱攻击，包括直接有害提示、对抗性后缀等，以全面评估SLMs的安全性能；3) 评估了多种防御方法，包括对抗训练、输入过滤等，以验证其在SLMs上的有效性；4) 分析了模型压缩等技术对SLMs安全性的影响，为模型优化提供了安全方面的指导。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

实验结果表明，大多数SLMs容易受到现有越狱攻击的影响，某些模型甚至对直接有害提示也无抵抗力。研究评估了几种防御方法，并证明它们能有效增强SLMs的安全性。此外，研究还发现模型压缩等技术可能导致SLMs的安全性下降，为模型优化提供了新的视角。

🎯 应用场景

该研究成果可应用于提升边缘设备上小型语言模型的安全性，例如智能家居设备、可穿戴设备和移动应用。通过增强SLMs的鲁棒性，可以有效防止恶意攻击和信息泄露，保护用户隐私和数据安全。研究结果也为开发更安全的SLMs提供了指导，促进了人工智能技术在安全敏感领域的应用。

📄 摘要（原文）

Small language models (SLMs) have become increasingly prominent in the deployment on edge devices due to their high efficiency and low computational cost. While researchers continue to advance the capabilities of SLMs through innovative training strategies and model compression techniques, the security risks of SLMs have received considerably less attention compared to large language models (LLMs).To fill this gap, we provide a comprehensive empirical study to evaluate the security performance of 13 state-of-the-art SLMs under various jailbreak attacks. Our experiments demonstrate that most SLMs are quite susceptible to existing jailbreak attacks, while some of them are even vulnerable to direct harmful prompts.To address the safety concerns, we evaluate several representative defense methods and demonstrate their effectiveness in enhancing the security of SLMs. We further analyze the potential security degradation caused by different SLM techniques including architecture compression, quantization, knowledge distillation, and so on. We expect that our research can highlight the security challenges of SLMs and provide valuable insights to future work in developing more robust and secure SLMs.