Safety Compliance: Rethinking LLM Safety Reasoning through the Lens of Compliance

📄 arXiv: 2509.22250v1 📥 PDF

作者: Wenbin Hu, Huihao Jing, Haochen Shi, Haoran Li, Yangqiu Song

分类: cs.CL, cs.AI

发布日期: 2025-09-26


💡 一句话要点

提出Safety Compliance框架,通过法律合规视角提升LLM安全性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM安全 法律合规 安全推理 Group Policy Optimization 欧盟AI法案 GDPR 安全基准 合规性对齐

📋 核心要点

  1. 现有LLM安全方法依赖临时分类,缺乏系统性,难以应对复杂场景。
  2. 提出Safety Compliance框架,以法律合规为安全标准,系统性解决LLM安全问题。
  3. 构建Compliance Reasoner,实验表明其在安全合规基准上显著优于现有方法。

📝 摘要(中文)

大型语言模型(LLM)的快速发展凸显了LLM安全性的重要性。然而,现有的安全方法依赖于临时分类,缺乏严谨、系统的保护,无法确保现代LLM系统复杂行为的安全性。为了解决这个问题,本文从法律合规的角度出发,提出了Safety Compliance框架。该框架将相关的法律框架(如欧盟AI法案和GDPR)作为安全标准,用于定义和衡量安全合规性。为了弥合LLM安全与法律合规之间的差距,首先构建了一个新的安全合规基准,通过法律条文生成真实的LLM安全场景。然后,使用Group Policy Optimization (GRPO)对Qwen3-8B进行对齐,构建了一个安全推理器Compliance Reasoner,有效地使LLM与法律标准对齐,从而降低安全风险。实验结果表明,Compliance Reasoner在新基准上表现出色,在欧盟AI法案和GDPR上的平均改进分别为+10.45%和+11.85%。

🔬 方法详解

问题定义:现有LLM安全方法主要依赖于人工定义的规则和分类,缺乏严谨性和系统性,难以覆盖LLM在复杂场景下的各种安全风险。这些方法通常是临时的,难以适应不断变化的法律法规和伦理标准。因此,如何建立一套基于明确法律框架的安全标准,并将其有效应用于LLM的安全保障,是一个亟待解决的问题。

核心思路:本文的核心思路是将LLM的安全问题置于法律合规的框架下进行考虑。通过将现有的法律法规(如欧盟AI法案和GDPR)作为LLM安全性的衡量标准,可以建立一套更加客观、严谨和可追溯的安全评估体系。同时,通过将LLM与法律标准对齐,可以有效地降低LLM违反法律法规的风险。

技术框架:该研究的技术框架主要包含两个阶段:首先,构建一个安全合规基准,用于评估LLM的安全合规性。该基准通过法律条文生成真实的LLM安全场景,涵盖了各种潜在的法律风险。其次,使用Group Policy Optimization (GRPO)对LLM进行对齐,构建一个安全推理器Compliance Reasoner。该推理器能够理解法律标准,并根据法律标准对LLM的输出进行约束,从而降低LLM违反法律法规的风险。

关键创新:该研究的关键创新在于将法律合规的概念引入到LLM安全领域。通过将法律法规作为LLM安全性的衡量标准,可以建立一套更加客观、严谨和可追溯的安全评估体系。此外,该研究还提出了一个基于GRPO的安全推理器,能够有效地使LLM与法律标准对齐,从而降低LLM违反法律法规的风险。与现有方法相比,该方法更加系统化和规范化,能够更好地应对LLM在复杂场景下的安全风险。

关键设计:在构建安全合规基准时,研究人员需要仔细选择相关的法律法规,并将其转化为具体的安全场景。在训练Compliance Reasoner时,需要设计合适的奖励函数,以鼓励LLM生成符合法律标准的输出。GRPO算法被用于对齐LLM,确保其输出符合法律法规的要求。具体参数设置和损失函数选择在论文中有详细描述,但未在摘要中明确指出。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Compliance Reasoner在新的安全合规基准上表现出色,在欧盟AI法案和GDPR上的平均改进分别为+10.45%和+11.85%。这表明该方法能够有效地使LLM与法律标准对齐,从而降低LLM违反法律法规的风险。该结果验证了Safety Compliance框架的有效性,并为LLM安全研究提供了一个新的方向。

🎯 应用场景

该研究成果可应用于各种需要确保LLM安全合规的场景,例如金融、医疗、法律等领域。通过使用Safety Compliance框架,可以有效地降低LLM违反法律法规的风险,保护用户权益,并促进LLM技术的健康发展。未来,该框架可以扩展到更多的法律法规和伦理标准,以适应不断变化的社会需求。

📄 摘要(原文)

The proliferation of Large Language Models (LLMs) has demonstrated remarkable capabilities, elevating the critical importance of LLM safety. However, existing safety methods rely on ad-hoc taxonomy and lack a rigorous, systematic protection, failing to ensure safety for the nuanced and complex behaviors of modern LLM systems. To address this problem, we solve LLM safety from legal compliance perspectives, named safety compliance. In this work, we posit relevant established legal frameworks as safety standards for defining and measuring safety compliance, including the EU AI Act and GDPR, which serve as core legal frameworks for AI safety and data security in Europe. To bridge the gap between LLM safety and legal compliance, we first develop a new benchmark for safety compliance by generating realistic LLM safety scenarios seeded with legal statutes. Subsequently, we align Qwen3-8B using Group Policy Optimization (GRPO) to construct a safety reasoner, Compliance Reasoner, which effectively aligns LLMs with legal standards to mitigate safety risks. Our comprehensive experiments demonstrate that the Compliance Reasoner achieves superior performance on the new benchmark, with average improvements of +10.45% for the EU AI Act and +11.85% for GDPR.