ML-Bench&Guard: Policy-Grounded Multilingual Safety Benchmark and Guardrail for Large Language Models
作者: Yunhan Zhao, Zhaorun Chen, Xingjun Ma, Yu-Gang Jiang, Bo Li
分类: cs.CL, cs.CR
发布日期: 2026-05-01
💡 一句话要点
提出ML-Bench与ML-Guard,解决大语言模型在多语言环境下安全对齐区域法规与文化差异的难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言安全 大型语言模型 安全基准 Guardrail模型 区域法规 文化对齐 合规性评估 扩散LLM
📋 核心要点
- 现有方法依赖通用风险分类和机器翻译,无法有效对齐不同区域法规和文化差异,导致多语言LLM安全评估受限。
- 提出ML-Bench,一个基于区域法规构建的多语言安全基准,直接利用法律文本指导数据生成,实现文化和法律对齐。
- 构建ML-Guard,一个基于扩散LLM的guardrail模型,支持多语言安全判断和策略条件下的合规性评估,性能优于现有方法。
📝 摘要(中文)
随着大型语言模型(LLMs)越来越多地部署在跨语言环境中,确保在不同的监管和文化环境中的安全性已成为一项关键挑战。然而,现有的多语言基准主要依赖于通用的风险分类和机器翻译,这限制了guardrail模型对这些预定义类别的适应,并阻碍了它们与特定区域的法规和文化细微差别的对齐能力。为了弥合这些差距,我们引入了ML-Bench,一个涵盖14种语言的基于策略的多语言安全基准。ML-Bench直接从区域法规构建,其中源自特定司法管辖区法律文本的风险类别和细粒度规则直接用于指导多语言安全数据的生成,从而实现跨语言的文化和法律对齐评估。在ML-Bench的基础上,我们开发了ML-Guard,一个基于扩散大型语言模型(dLLM)的guardrail模型,支持多语言安全判断和策略条件下的合规性评估。ML-Guard有两个变体,一个是用于快速“安全/不安全”检查的1.5B轻量级模型,另一个是用于定制合规性检查并提供详细解释的7B模型。我们针对6个现有的多语言安全基准和我们的ML-Bench,对11个强大的guardrail基线进行了广泛的实验,结果表明ML-Guard始终优于先前的方法。我们希望ML-Bench和ML-Guard能够帮助推进具有法规意识和文化对齐的多语言guardrail系统的发展。
🔬 方法详解
问题定义:现有的大型语言模型在跨语言应用中面临安全挑战,尤其是在不同地区的法规和文化背景下。现有的多语言安全基准测试方法依赖于通用的风险分类和机器翻译,这使得模型难以适应特定区域的法规和文化差异,导致安全评估不够准确和全面。因此,需要一种能够更好地对齐区域法规和文化细微差别的多语言安全评估方法。
核心思路:论文的核心思路是直接从区域法规中提取风险类别和细粒度规则,并以此为基础构建多语言安全基准ML-Bench。通过这种方式,可以确保生成的安全数据与特定地区的法律和文化背景相符,从而实现更准确和全面的安全评估。同时,利用扩散大型语言模型(dLLM)构建guardrail模型ML-Guard,使其能够进行多语言安全判断和策略条件下的合规性评估。
技术框架:整体框架包括两个主要部分:ML-Bench的构建和ML-Guard的开发。ML-Bench的构建流程包括:1) 收集不同区域的法规文本;2) 从法规文本中提取风险类别和细粒度规则;3) 基于提取的规则生成多语言安全数据。ML-Guard的开发包括:1) 使用ML-Bench数据训练dLLM;2) 构建两个变体,一个用于快速安全检查(1.5B模型),另一个用于定制合规性检查并提供详细解释(7B模型)。
关键创新:最重要的技术创新点在于ML-Bench的构建方法,它直接从区域法规中提取信息,而不是依赖于通用的风险分类和机器翻译。这种方法能够更好地捕捉不同地区的法律和文化细微差别,从而生成更具针对性的安全数据。此外,ML-Guard利用扩散LLM进行安全判断和合规性评估,也具有一定的创新性。
关键设计:ML-Guard包含两个模型变体,1.5B模型侧重于速度,适用于快速安全检查;7B模型侧重于能力,能够进行更复杂的合规性评估并提供详细解释。ML-Guard使用ML-Bench生成的数据进行训练,损失函数和网络结构等技术细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ML-Guard在6个现有的多语言安全基准和ML-Bench上,均优于11个强大的guardrail基线。这表明ML-Guard能够更有效地识别和处理多语言环境下的安全问题,具有显著的性能优势。具体的性能提升幅度未在摘要中给出,属于未知信息。
🎯 应用场景
该研究成果可应用于各种需要多语言安全保障的场景,例如:跨国公司的内容审核、面向全球用户的在线教育平台、国际新闻媒体等。通过ML-Bench和ML-Guard,可以有效提升LLM在不同文化和法律环境下的安全性,降低潜在的法律风险和声誉损失,促进LLM在全球范围内的安全可靠应用。
📄 摘要(原文)
As Large Language Models (LLMs) are increasingly deployed in cross-linguistic contexts, ensuring safety in diverse regulatory and cultural environments has become a critical challenge. However, existing multilingual benchmarks largely rely on general risk taxonomies and machine translation, which confines guardrail models to these predefined categories and hinders their ability to align with region-specific regulations and cultural nuances. To bridge these gaps, we introduce ML-Bench, a policy-grounded multilingual safety benchmark covering 14 languages. ML-Bench is constructed directly from regional regulations, where risk categories and fine-grained rules derived from jurisdiction-specific legal texts are directly used to guide the generation of multilingual safety data, enabling culturally and legally aligned evaluation across languages. Building on ML-Bench, we develop ML-Guard, a Diffusion Large Language Model (dLLM)-based guardrail model that supports multilingual safety judgment and policy-conditioned compliance assessment. ML-Guard has two variants, one 1.5B lightweight model for fast `safe/unsafe' checking and a more capable 7B model for customized compliance checking with detailed explanations. We conduct extensive experiments against 11 strong guardrail baselines across 6 existing multilingual safety benchmarks and our ML-Bench, and show that ML-Guard consistently outperforms prior methods. We hope that ML-Bench and ML-Guard can help advance the development of regulation-aware and culturally aligned multilingual guardrail systems.