Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings

📄 arXiv: 2503.15092v1 📥 PDF

作者: Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, Dacheng Tao

分类: cs.CR, cs.AI, cs.CL

发布日期: 2025-03-19

🔗 代码/项目: GITHUB


💡 一句话要点

首次全面评估DeepSeek模型安全性,揭示其在多风险维度上的脆弱性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全性评估 DeepSeek模型 双语数据集 算法歧视 性内容 多模态模型

📋 核心要点

  1. 现有大型语言模型在安全方面存在不足,尤其是在特定文化背景下的安全性评估不够充分。
  2. 论文构建了中英文双语安全评估数据集,并系统评估DeepSeek系列模型在多个安全风险维度上的表现。
  3. 实验结果表明,DeepSeek模型在算法歧视和性内容等方面存在安全漏洞,为后续安全提升提供依据。

📝 摘要(中文)

本研究首次对DeepSeek模型进行了全面的安全性评估,重点关注其生成内容相关的安全风险。评估范围涵盖了DeepSeek最新一代的大型语言模型、多模态大型语言模型和文本到图像模型,系统地检查了它们在生成不安全内容方面的表现。值得注意的是,我们开发了一个双语(中英文)安全评估数据集,专门针对中国社会文化背景,从而能够更彻底地评估中国开发模型的安全能力。实验结果表明,尽管DeepSeek模型具有强大的通用能力,但在包括算法歧视和性内容在内的多个风险维度上表现出显著的安全漏洞。这些发现为理解和提高大型基础模型的安全性提供了关键见解。我们的代码可在https://github.com/NY1024/DeepSeek-Safety-Eval获取。

🔬 方法详解

问题定义:现有的大型语言模型,包括DeepSeek系列,虽然在通用能力上表现出色,但在安全性方面仍然存在隐患。尤其是在面对特定文化背景(如中国社会文化)时,现有的安全评估方法和数据集可能无法充分揭示模型潜在的安全风险,例如算法歧视、生成不当内容等。因此,如何全面、有效地评估和提升这些模型的安全性是一个亟待解决的问题。

核心思路:本研究的核心思路是通过构建一个专门针对中国社会文化背景的双语安全评估数据集,并在此基础上对DeepSeek系列模型进行全面的安全性评估。通过系统地测试模型在多个风险维度上的表现,从而发现其潜在的安全漏洞,为后续的安全改进提供指导。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建双语安全评估数据集:该数据集包含中英文两种语言,并针对中国社会文化背景设计,涵盖多个安全风险维度,例如算法歧视、性内容等。2) 选择评估对象:选择DeepSeek最新一代的大型语言模型、多模态大型语言模型和文本到图像模型作为评估对象。3) 设计评估方案:针对不同的模型和风险维度,设计相应的评估方案,例如使用特定的prompt诱导模型生成内容,然后对生成的内容进行安全评估。4) 分析评估结果:对评估结果进行统计分析,从而发现模型存在的安全漏洞。

关键创新:本研究的关键创新在于构建了一个专门针对中国社会文化背景的双语安全评估数据集。与现有的通用安全评估数据集相比,该数据集能够更有效地评估中国开发模型在特定文化背景下的安全风险。此外,该研究还首次对DeepSeek系列模型进行了全面的安全性评估,为理解和提高这些模型的安全性提供了重要的参考。

关键设计:数据集构建的关键设计在于针对中国社会文化背景,设计了包含算法歧视、性内容等多个风险维度的评估用例。评估方案的关键设计在于使用多样化的prompt诱导模型生成内容,并采用人工评估和自动评估相结合的方式对生成的内容进行安全评估。具体的参数设置、损失函数、网络结构等技术细节取决于被评估的DeepSeek模型本身,本研究主要关注的是模型生成内容的安全性,而非模型本身的内部结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DeepSeek模型在多个安全风险维度上存在显著漏洞,尤其是在算法歧视和性内容生成方面。尽管模型在通用能力上表现出色,但其安全性仍有待提高。该研究构建的双语安全评估数据集为后续研究提供了宝贵资源,并为其他大型语言模型的安全评估提供了借鉴。

🎯 应用场景

该研究成果可应用于大型语言模型、多模态模型和文本到图像模型的安全风险评估与改进。通过使用该研究提出的评估方法和数据集,开发者可以更全面地了解模型的安全性能,及时发现并修复潜在的安全漏洞,从而提高模型的安全性和可靠性。此外,该研究还可以为相关政策制定者提供参考,促进人工智能技术的健康发展。

📄 摘要(原文)

This study presents the first comprehensive safety evaluation of the DeepSeek models, focusing on evaluating the safety risks associated with their generated content. Our evaluation encompasses DeepSeek's latest generation of large language models, multimodal large language models, and text-to-image models, systematically examining their performance regarding unsafe content generation. Notably, we developed a bilingual (Chinese-English) safety evaluation dataset tailored to Chinese sociocultural contexts, enabling a more thorough evaluation of the safety capabilities of Chinese-developed models. Experimental results indicate that despite their strong general capabilities, DeepSeek models exhibit significant safety vulnerabilities across multiple risk dimensions, including algorithmic discrimination and sexual content. These findings provide crucial insights for understanding and improving the safety of large foundation models. Our code is available at https://github.com/NY1024/DeepSeek-Safety-Eval.