Libra: Large Chinese-based Safeguard for AI Content

作者: Ziyang Chen, Huimu Yu, Xing Wu, Dongqin Liu, Songlin Hu

分类: cs.AI

发布日期: 2025-07-29

💡 一句话要点

Libra-Guard：针对中文LLM的安全保障系统，并构建了首个中文安全评测基准。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型安全 中文LLM 安全保障系统 课程学习 安全评测基准 Libra-Guard Libra-Test

📋 核心要点

现有LLM在安全性和伦理方面存在挑战，尤其是在中文场景下缺乏有效的保障措施和评测基准。
Libra-Guard采用两阶段课程训练，先在合成数据上预训练，再在真实数据上微调，提升数据效率并减少人工标注。
Libra-Guard在Libra-Test基准上取得了显著的性能提升，超越了多个开源模型，接近闭源模型水平。

📝 摘要（中文）

大型语言模型（LLMs）在文本理解和生成方面表现出色，但在高风险应用中引发了重要的安全和伦理问题。为了缓解这些风险，我们提出了Libra-Guard，这是一个旨在增强中文LLM安全性的前沿保障系统。Libra-Guard利用两阶段课程训练流程，通过在合成样本上进行guard预训练，然后在高质量的真实世界数据上进行微调，从而提高数据效率，显著减少对人工标注的依赖。为了实现严格的安全评估，我们还推出了Libra-Test，这是第一个专门用于评估中文内容保障系统有效性的基准。它涵盖七个关键的危害场景，包括由领域专家标注的超过5,700个样本。实验表明，Libra-Guard实现了86.79%的准确率，优于Qwen2.5-14B-Instruct（74.33%）和ShieldLM-Qwen-14B-Chat（65.69%），并且接近像Claude-3.5-Sonnet和GPT-4o这样的闭源模型。这些贡献为推进中文LLM的安全治理建立了一个强大的框架，并代表着朝着开发更安全、更可靠的中文AI系统迈出的初步一步。

🔬 方法详解

问题定义：论文旨在解决中文大型语言模型（LLM）的安全问题，具体来说，是缺乏有效的安全保障系统和评测基准。现有的方法要么依赖大量人工标注数据，成本高昂，要么在中文场景下的效果不佳，无法有效识别和防御有害内容。

核心思路：论文的核心思路是利用两阶段课程训练，结合合成数据和真实数据，构建一个高效且准确的中文LLM安全保障系统。通过在合成数据上进行预训练，可以快速学习到基本的安全知识，然后在真实数据上进行微调，可以提升模型的泛化能力和鲁棒性。同时，构建专门的中文安全评测基准，为模型的安全性能提供客观的评估。

技术框架：Libra-Guard的整体框架包含两个主要阶段：Guard预训练和微调。在Guard预训练阶段，使用合成数据训练模型，使其初步具备识别有害内容的能力。在微调阶段，使用高质量的真实数据对模型进行微调，提升模型的准确率和泛化能力。同时，论文还提出了Libra-Test基准，用于评估模型的安全性能。

关键创新：论文的关键创新在于以下几个方面：1) 提出了两阶段课程训练方法，有效利用合成数据和真实数据，提升模型的训练效率和性能；2) 构建了首个专门针对中文LLM安全性的评测基准Libra-Test，为模型的安全评估提供了客观的标准；3) Libra-Guard在性能上超越了多个开源模型，接近闭源模型水平，证明了该方法的有效性。

关键设计：在Guard预训练阶段，使用了基于规则的合成数据生成方法，生成包含各种有害内容的样本。在微调阶段，使用了人工标注的高质量真实数据。损失函数方面，使用了交叉熵损失函数。在Libra-Test基准中，涵盖了七个关键的危害场景，包括色情、暴力、仇恨言论等。具体参数设置未知。

📊 实验亮点

Libra-Guard在Libra-Test基准上取得了显著的性能提升，达到了86.79%的准确率，超过了Qwen2.5-14B-Instruct (74.33%) 和 ShieldLM-Qwen-14B-Chat (65.69%)，并且接近Claude-3.5-Sonnet和GPT-4o等闭源模型。这表明Libra-Guard在中文LLM安全保障方面具有显著的优势。

🎯 应用场景

该研究成果可应用于各种需要安全保障的中文LLM应用场景，例如智能客服、内容审核、舆情分析等。Libra-Guard可以有效过滤有害信息，保障用户安全，提升用户体验。Libra-Test基准可以为中文LLM的安全评估提供标准，促进中文AI安全技术的发展。未来，该研究可以进一步扩展到其他语言和模态，构建更加完善的安全保障体系。

📄 摘要（原文）

Large language models (LLMs) excel in text understanding and generation but raise significant safety and ethical concerns in high-stakes applications. To mitigate these risks, we present Libra-Guard, a cutting-edge safeguard system designed to enhance the safety of Chinese-based LLMs. Leveraging a two-stage curriculum training pipeline, Libra-Guard enhances data efficiency by employing guard pretraining on synthetic samples, followed by fine-tuning on high-quality, real-world data, thereby significantly reducing reliance on manual annotations. To enable rigorous safety evaluations, we also introduce Libra-Test, the first benchmark specifically designed to evaluate the effectiveness of safeguard systems for Chinese content. It covers seven critical harm scenarios and includes over 5,700 samples annotated by domain experts. Experiments show that Libra-Guard achieves 86.79% accuracy, outperforming Qwen2.5-14B-Instruct (74.33%) and ShieldLM-Qwen-14B-Chat (65.69%), and nearing closed-source models like Claude-3.5-Sonnet and GPT-4o. These contributions establish a robust framework for advancing the safety governance of Chinese LLMs and represent a tentative step toward developing safer, more reliable Chinese AI systems.

Libra: Large Chinese-based Safeguard for AI Content

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理