Bielik Guard: Efficient Polish Language Safety Classifiers for LLM Content Moderation
作者: Krzysztof Wróbel, Jan Maria Kowalski, Jerzy Surma, Igor Ciuciura, Maciej Szymański
分类: cs.CL, cs.AI
发布日期: 2026-02-08 (更新: 2026-02-13)
💡 一句话要点
Bielik Guard:高效的波兰语LLM内容审核安全分类器
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 内容审核 大型语言模型 波兰语 安全分类器 迁移学习 RoBERTa 自然语言处理
📋 核心要点
- 现有波兰语LLM内容审核缺乏高效且准确的安全分类器,难以有效识别和处理有害内容。
- Bielik Guard通过微调小型RoBERTa模型,在保证性能的同时,显著降低了计算成本和延迟。
- 实验表明,Bielik Guard在精度和假阳性率方面优于现有方法,尤其是在真实用户提示下。
📝 摘要(中文)
随着大型语言模型(LLMs)在波兰语应用中日益普及,对高效且准确的内容安全分类器的需求变得至关重要。我们提出了Bielik Guard,一个紧凑的波兰语安全分类器系列,包含两个模型变体:一个基于MMLW-RoBERTa-base的0.1B参数模型和一个基于PKOBP/polish-roberta-8k的0.5B参数模型。这些模型在一个包含6,885个波兰语文本的社区标注数据集上进行了微调,用于对五个安全类别的内容进行分类:仇恨/攻击、粗俗内容、性内容、犯罪和自残。我们的评估表明,这两个模型在多个基准测试上都取得了良好的性能。0.5B变体提供了最佳的整体区分能力,在测试集上的F1分数分别为0.791(micro)和0.785(macro),而0.1B变体则表现出卓越的效率。值得注意的是,Bielik Guard 0.1B v1.1在真实用户提示上实现了更高的精度(77.65%)和非常低的假阳性率(0.63%),优于HerBERT-PL-Guard(31.55%精度,4.70% FPR),尽管模型大小相同。这些模型是公开可用的,旨在提供适当的响应,而不是简单的内容阻止,特别是对于自残等敏感类别。
🔬 方法详解
问题定义:论文旨在解决波兰语大型语言模型(LLM)内容审核中缺乏高效、准确的安全分类器的问题。现有方法要么性能不足,无法有效识别各种有害内容,要么模型过大,部署成本高昂,难以满足实际应用的需求。
核心思路:论文的核心思路是利用预训练语言模型的迁移学习能力,通过在社区标注的波兰语安全数据集上微调小型RoBERTa模型,构建高效的波兰语安全分类器。这种方法旨在在模型性能和计算效率之间取得平衡。
技术框架:Bielik Guard包含两个模型变体,分别基于MMLW-RoBERTa-base(0.1B参数)和PKOBP/polish-roberta-8k(0.5B参数)。整体流程包括:1) 数据收集与标注;2) 模型选择与预训练;3) 在包含仇恨/攻击、粗俗内容、性内容、犯罪和自残五个类别的安全数据集上进行微调;4) 模型评估与优化。
关键创新:该论文的关键创新在于构建了高效的波兰语安全分类器,在保证较高精度的同时,显著降低了模型大小和计算成本。与现有方法相比,Bielik Guard在精度和假阳性率方面表现更优,尤其是在真实用户提示下。此外,该模型的设计目标是提供适当的响应,而非简单的内容屏蔽,这对于自残等敏感类别至关重要。
关键设计:论文的关键设计包括:1) 选择合适的预训练RoBERTa模型作为基础模型;2) 构建高质量的波兰语安全数据集,包含五个安全类别;3) 采用合适的微调策略,优化模型性能;4) 针对真实用户提示进行评估,确保模型在实际应用中的有效性。具体的损失函数和网络结构细节未在摘要中详细说明,属于未知信息。
📊 实验亮点
Bielik Guard 0.1B v1.1在真实用户提示上实现了77.65%的精度和0.63%的假阳性率,显著优于HerBERT-PL-Guard(31.55%精度,4.70% FPR),尽管两者模型大小相同。0.5B变体在测试集上的F1分数分别为0.791(micro)和0.785(macro),表明其具有良好的整体区分能力。
🎯 应用场景
Bielik Guard可广泛应用于波兰语LLM的内容审核,例如社交媒体平台、在线论坛、聊天机器人等。它可以帮助自动识别和过滤有害内容,维护网络环境的安全和健康。该研究的成果有助于推动波兰语LLM的负责任使用,并为其他低资源语言的内容审核提供借鉴。
📄 摘要(原文)
As Large Language Models (LLMs) become increasingly deployed in Polish language applications, the need for efficient and accurate content safety classifiers has become paramount. We present Bielik Guard, a family of compact Polish language safety classifiers comprising two model variants: a 0.1B parameter model based on MMLW-RoBERTa-base and a 0.5B parameter model based on PKOBP/polish-roberta-8k. Fine-tuned on a community-annotated dataset of 6,885 Polish texts, these models classify content across five safety categories: Hate/Aggression, Vulgarities, Sexual Content, Crime, and Self-Harm. Our evaluation demonstrates that both models achieve strong performance on multiple benchmarks. The 0.5B variant offers the best overall discrimination capability with F1 scores of 0.791 (micro) and 0.785 (macro) on the test set, while the 0.1B variant demonstrates exceptional efficiency. Notably, Bielik Guard 0.1B v1.1 achieves superior precision (77.65%) and very low false positive rate (0.63%) on real user prompts, outperforming HerBERT-PL-Guard (31.55% precision, 4.70% FPR) despite identical model size. The models are publicly available and designed to provide appropriate responses rather than simple content blocking, particularly for sensitive categories like self-harm.